导读 人工智能和机器学习已经无处不在,其应用范围涵盖数据分析、网络安全、药物开发、音乐创作和艺术渲染。近年来,大型语言模型(LLM)也出现了...

人工智能和机器学习已经无处不在,其应用范围涵盖数据分析、网络安全、药物开发、音乐创作和艺术渲染。

近年来,大型语言模型(LLM)也出现了,将人类交互和写作添加到了长长的应用程序列表中。其中包括ChatGPT,这是一门法学硕士,自推出不到两年以来就产生了深远的影响。该应用程序引发了有关人工智能潜在用途和影响的大量争论(和争议)。

天文学也受益匪浅,机器学习被用来对大量数据进行排序,以寻找行星凌日的迹象,纠正大气干扰,并找到噪音中的模式。一个国际天体物理学家团队表示,这可能只是人工智能为天文学做的事情的开始。

在最近的一项研究中,该团队利用对天文物体的观测对生成式预训练Transformer(GPT)模型进行了微调。在此过程中,他们成功证明了GPT模型可以有效辅助科学研究。

这项研究是由国际相对论天体物理中心网络(ICRANet)进行的,该网络是一个由国际相对论天体物理中心(ICRA)、国家天体物理研究所(INAF)、美国科学技术大学的研究人员组成的国际联盟。中国、中国科学院高能物理研究所(CAS-IHEP)、帕多瓦大学、伊斯法罕理工大学和费雷拉大学。

他们的论文“AI能理解我们的宇宙吗?通过天体物理数据微调GPT的测试”最近发布到arXiv预印本服务器上。

如前所述,天文学家广泛依赖机器学习算法来对现代望远镜和仪器获得的大量数据进行分类。这种做法大约开始于十年前,此后突飞猛进,以至于人工智能已经融入到整个研究过程中。ICRA主席兼该研究的主要作者YuWang通过电子邮件告诉《今日宇宙》:

“天文学一直是由数据驱动的,天文学家是最早采用和使用机器学习的科学家之一。现在,机器学习已经融入到整个天文学研究过程中,从地面和天基的制造和控制望远镜(例如,优化自适应光学系统的性能、改进卫星在某些条件下特定动作(触发器)的启动等),到数据分析(例如,降噪、数据插补、分类、模拟等),以及理论模型的建立和验证(例如,测试修正重力、约束中子星状态方程等)。

数据分析仍然是这些应用程序中最常见的,因为它是最容易集成机器学习的领域。传统上,数十名研究人员和数百名公民科学家将分析观察活动产生的大量数据。

然而,在现代望远镜每天收集数TB数据的时代,这是不切实际的。这包括甚大阵列巡天(VLASS)等全天巡天以及斯隆数字巡天(SDSS)进行的多个阶段。

迄今为止,法学硕士只是零星地应用于天文学研究,因为它们是相对较新的创造。但根据王等支持者的说法,它产生了巨大的社会影响,并具有相当于“工业革命”的下限潜力。

至于上限,王预测,范围可能很大,并可能导致人类的“启蒙或毁灭”。然而,与工业革命不同的是,人工智能的变革和整合速度要快得多,这引发了人们对其采用程度的疑问。

Wang说,为了确定其在天文学领域的潜力,他和他的同事采用了预先训练的GPT模型,并对其进行了微调以识别天文现象:

“OpenAI提供了预先训练好的模型,我们所做的就是微调,包括在原始模型的基础上改变一些参数,让它能够识别天文数据并根据这些数据计算结果。这有点像OpenAI为我们提供了一个本科生,然后我们将其培训成为天文学研究生。

“与正常模型相比,我们提供了有限的数据和适度的分辨率,并且训练GPT的次数更少。尽管如此,结果令人印象深刻,达到了约90%的准确率。如此高的准确度要归功于GPT的坚实基础,已经了解数据处理并具备逻辑推理能力以及沟通能力。”

为了微调他们的模型,该团队引入了对来自各种目录的各种天文现象的观测。其中包括来自SDSS的2,000个类星体、星系、恒星和宽吸收线(BAL)类星体样本(每个500个)。他们还整合了对短伽马射线暴和长伽马射线暴、星系、恒星和黑洞模拟的观测。经过测试,他们的模型成功地对不同的现象进行了分类,区分了类星体的类型,根据红移推断了它们的距离,并测量了黑洞的旋转和倾斜。

“这项工作至少证明了法学硕士有能力处理天文数据,”王说。“而且,模型处理各种类型天文数据的能力是其他专业模型不具备的能力。我们希望法学硕士能够整合各种数据,然后找出共同的底层原理,帮助我们理解世界。当然。,这是一项具有挑战性的任务,不是天文学家能够单独完成的。”

当然,该团队承认,与现代天文台的数据输出相比,他们实验的数据集非常小。对于像VeraC.Rubin天文台这样的下一代设施尤其如此,该天文台最近收到了LSST相机,这是世界上最大的数码相机!

一旦Rubin投入运行,它将进行为期10年的遗留时空勘测(LSST),预计每晚将产生15TB的数据!王说,满足未来活动的需求将需要天文台和专业人工智能公司之间的改进和合作。

尽管如此,在不久的将来将会有更多的天文学LLM申请已成定局。考虑到当今天文学研究产生的海量数据,这不仅是一种可能的发展,而且是必要的发展。由于这种情况在不久的将来可能会呈指数级增长,人工智能可能会成为研究领域不可或缺的一部分。