为了应对宇宙数据即将出现的指数级增长趋势,天体物理学家也开始将目光投向机器学习。
Kevin Schawinski的问题
技术的进步加快了科学家收集信息的能力,但科学家们处理信息的速度却没有相应提升。 Schawinski和同事Chris Lintott花费了大量的时间来处理这个任务(即是上面提到处理星辰图像的任务),但并没有得到良好的效果,因此,他们决定必须找到更好的方法来解决这个问题。
Schawinski和Lintott通过一个名为Galaxy Zoo的公民科学项目从公众中招募志愿者来帮助他们分类网上的星辰图像,并向多名志愿者展示相同的图像以便让他们能够检查彼此的工作。最终,超过10万人参与并完成了这一项任务,如果靠他们自己的话,这项任务可能需要数年时间才能完成,但通过这种方式不到6个月就完成了。
公民科学家继续为图像分类任务做出贡献。但技术也在不断发展。
暗能量光谱仪器计划于2019年开始,五年内将测量约3000万个星系和类星体的速度。大型天气调查望远镜定于20世纪20年代初开始工作,每晚将收集超过30TB的数据 – 并持续十年。
“来自这些调查的数据量至少要大一个数量级,”芝加哥大学博士后研究员Camille Avestruz说。
为了跟上数据的增长,像Schawinski和Avestruz这样的天体物理学家已经着手招募了一类新的、非人类的科学家:机器。
研究人员正在使用人工智能来帮助完成天文学和宇宙学中的各种任务,从图像分析到望远镜调度。
超级调度,计算机级别的校准
人工智能似乎是计算机可以推理,决策,学习和执行与人类智能相关的任务的方式的总称。机器学习是人工智能的一个子领域,它使用统计技术和模式识别来训练计算机做出决策,而不是编写更直接的算法。
2017年,斯坦福大学的一个研究小组利用机器学习来研究强引力透镜的图像,这种现象指的是空间中物质的积累足够密集时会弯曲光波。由于许多引力透镜不能单独通过发光物质来解释,因此更好地了解引力透镜可以帮助天文学家深入了解暗物质。
过去,科学家通过比较重力透镜的实际图像,并使用计算机大量模拟数学透镜模型来进行研究,这个过程可能需要数周甚至数月才能生成单个图像。但一个斯坦福大学的团队表明,机器学习算法可以将这个过程加速数百万倍。
Schawinski现在是苏黎世联邦理工学院的天体物理学家,并在他目前的工作中应用了机器学习。他的小组使用了称为生成对抗网络(GAN)的工具来恢复因随机噪声而降级的图像。
机器学习在天体物理学中的另一个应用涉及解决诸如调度之类的逻辑挑战。对于望远镜来说,一夜之间只有一个固定的时长可以使用给定的高倍望远镜,并且在一个确定的时间它只能指向某个特定的方向。芝加哥大学的物理学家,费米实验室机器智能小组的成员布莱恩诺德说:“使用望远镜数周就能花费数百万美元。”该公司的任务是帮助所有高能量领域的研究人员在他们的工作中部署AI。
机器学习可以帮助天文台安排望远镜,使他们能够尽可能有效地收集数据。 Schawinski的实验室和Fermilab都在使用一种称为强化学习的技术来训练算法解决这样的问题。在强化学习中,算法不是针对“正确”和“错误”答案进行训练,而是通过依赖于其输出的不同反馈。算法必须在选项的安全性,可预测的收益与通过意外方案完美解决问题的可能性之间取得平衡。
不断增长的AI应用领域
当芝加哥大学丰田技术学院的计算机科学研究生Shubhendu Trivedi开始与他的导师Risi Kondor一起教授深度学习的研究生课程时,他很高兴地看到有很多来自物理科学的研究人员报名参加。他们对如何在他们的研究中使用AI知之甚少,Trivedi意识到机器学习专家能够帮助不同领域的科学家找到利用这些AI新技术的方法,但目前这一需求并没有得到满足。
他与班上研究人员进行的对话演变为合作,包括参加深空天体实验室,这是一个天文学和人工智能研究小组,由Avestruz,Nord和太空望远镜科学研究所的天文学家Joshua Peek共同创立。本月早些时候,他们提交了他们的第一篇同行评审论文,展示了基于人工智能的方法在宇宙微波背景下测量引力透镜的效率。
论文地址:
https://arxiv.org/abs/1810.01483
事实上,各地都出现了类似的团体,从瑞士的Schawinski集团到澳大利亚的天体物理和超级计算中心。天文学中机器学习技术的采用正在迅速增加。在arXiv对天文学论文的搜索中,“深度学习”和“机器学习”这两个术语在2018年前七个月的论文标题中出现的比2017年全年更多,而2017年全年都超过了2016年。
“五年前,天文学中的机器学习算法是在大多数情况下比人类表现更差的深奥工具,”Nord说,然而如今,越来越多的算法开始优于人类:“你会惊讶于它有多少低悬可摘的果实。”
但是将机器学习引入天体物理学研究也存在很多障碍。其中最大的问题在于机器学习对天文学家来说往往是一个黑盒。Schawinski说:“我们不了解神经网络如何工作和理解事物”,对于使用工具而不完全了解它们的工作方式,科学家们感到很担心。
另一个绊脚石则是不确定性。机器学习通常建立于具有一定量噪声或误差的输入,并且模型本身会做出引入不确定性的假设。研究人员在工作中使用机器学习技术需要了解这些不确定性,并将这些不确定性准确地传达给彼此和更广泛的研究领域。
机器学习的现状发生了如此迅速的变化,研究人员不愿意对未来五年即将发生的事情进行预测。 “如果数据能直接从望远镜中取出,而机器可以利用这些数据,发现并创造出意想不到的模式,我会非常兴奋,”Nord说。
无论未来的发展形式如何,数据的发展都会越来越快。研究人员越来越相信,人工智能将成为帮助他们跟上发展的必要条件。
相关报道:
https://www.symmetrymagazine.org/article/studying-the-stars-with-machine-learning