本文讲述了机器学习在引力波探测中的应用。
一、什么是引力波?
爱因斯坦最迷人的理论,莫过于时空结构与万有引力之间的关系。他认为,三维空间与一维时间其实是四维时空中的一个截面,而我们所说的万有引力正展现了四维时空的几何特性。 把这个理论简化成二维的面,就很好理解了。一张平面的纸和一个球的外表面都是二维表面。纸面的内蕴几何是平坦的,而球面是弯曲的。那么,对于生活在面上的蚂蚁,如何才能得知自己生活在纸面还是球面上呢?你可以画出两条长长的直线,它们的起点彼此接近,并向平行的方向延伸。在纸面上,这样的两条直线会永远保持平行,而在一个球面上,两条直线会逐渐汇聚,并在经过πR/2的距离后相交(R是球面的半径)。 纸面和球面上的直线都是自由落体在时空中的轨迹。与牛顿定律不同,爱因斯坦认为,四维时空中的直线正是不受外力的物体静止或匀速运动时(也就是「自由下落(free fall)」)的轨迹。在三维空间中沿着抛物线下落的炮弹轨迹,在四维时空中是一条直线;围着太阳旋转的地球轨迹,在时空中也是一条直线。
二、如何探测引力波?
在人类探测引力波的半个世纪历程中,科学家们开发出了各种不同的探测技术。对引力波的直接探测,主要有三种不同的方法,分别针对三个不同的波段。
1,10Hz~1kHz:激光干涉测量
这是目前探测的最高频波段。这个波段主要来源于旋转的中子星或双黑洞系统合并前以及合并过程中产生的引力波。对这个波段主要采用的方法是激光干涉测量(Laser Interferometry),包括前短时间震惊世界的LIGO(the Laser Interferometer Gravitational- Wave Observatory),还有欧洲的处女座干涉仪(Virgo Project)。LIGO探测仪位于两个地方——美国华盛顿州的汉福德和路易斯安那州的利文斯顿,处女座的探测仪则位于意大利的卡希纳。 激光干涉的工作原理是什么呢?如下图所示,一束超稳定激光射向一个分光镜(beamsplitter),平均分为两束垂直的光线,经过3~4公里之后,光线再被反射回分光镜。反射回来的两束光线重新混合在一起,并进行观测。这束重新混合的光的强度与两束光返回的时间差的余弦成一定的比例。路程中的引力波扰动会影响光线返回的时间,从而影响重新混合的光强。
2,0.01mHz~1Hz:航天器多普勒追踪(Spacecraft Doppler Tracking)
这个波段的目标非常丰富。数以千万计的白矮星双星系统都位于这个波段,它们辐射出的引力波可以被将来的激光干涉空间天线(LISA)项目探测到——这个项目仍在设计阶段,计划于2034年投入运行。白矮星在电磁波中非常黯淡,所以目前很难观测。预计,将来用引力波观测到的白矮星数量将大大超过电磁波观测到的数量。但由于地面激光干涉仪难以达到该波段的精度,因此只能将探测任务放在太空中,这就是LISA项目。LISA将由三个相同的航天器组成一个边长为500万千米的等边三角形,位于与地球相同的日心轨道。它的原理与激光干涉类似,你可以把每个航天器想象成一个分光镜,而另外两个是反射镜。
LISA
3,1nHz~1μHz:脉冲星计时阵(Pulsar Timing Arrays)引力波的探测需要极高的精度。在前两个波段,人们依靠的都是激光相位,而在1nHz~1μHz波段,人们使用的是大自然创造的精密时钟——脉冲星计时阵(PTA),也就是毫秒脉冲星(MSP)组成的网络,它们的脉冲可以长时间保持稳定,适用于探测时间特征以天或年计的引力波。目前正在进行的项目有欧洲PTA,北美Nanohertz引力波天文台和帕克斯天文台。
三、机器学习在引力波天文学中的应用
机器学习在引力波天文学中的应用,主要有三种,分别是识别引力波信号中的噪声、评估设备的响应函数和分析引力波的来源。
1,识别噪声
1)非平稳噪声:卡尔曼滤波机器学习最早应用在引力波数据分析中,是为了追踪激光干涉仪数据中的某些谱线特征。干涉仪中的镜子悬挂在极细的电线上,而电线总是因为热力等因素而不停地振动。这种「小提琴模式」的振动也会让镜子发生振动,从而在数据中产生噪声。针对这种噪声,一般使用的是卡尔曼滤波(Kalman filter)的方法,来跟踪和预测这种「小提琴模式」噪声的强度和相位,从而将其从数据流中去除出去。 卡尔曼滤波是一种高效率的递归滤波器(自回归滤波器),它能够从一系列的不完全及包含噪声的测量中,估计动态系统的状态。卡尔曼滤波的一个典型实例是从一组有限的、包含噪声的、通过对物体位置的观察序列(可能有偏差)预测出物体的位置坐标及速度。在很多工程应用(如雷达、计算机视觉)中都可以找到它的身影。同时,卡尔曼滤波也是控制理论以及控制系统工程中的一个重要课题。例如,对于雷达来说,人们感兴趣的是其能够跟踪目标。但目标的位置、速度、加速度的测量值往往在任何时候都有噪声。卡尔曼滤波利用目标的动态信息,设法去掉噪声的影响,得到一个关于目标位置的好的估计。这个估计可以是对当前目标位置的估计(滤波),也可以是对于将来位置的估计(预测),也可以是对过去位置的估计(插值或平滑)。
2)短时脉冲波干扰:神经网络,支持向量机,随机森林……位于地面的激光干涉仪不仅受到上述有色高斯噪声的干扰,还会遭受非高斯的短时脉冲波干扰(glitch),这种干扰与物理环境有关,例如火车造成的震测杂波、飞机的声波、磁场干扰、电源瞬变、散射光、穿越光束的灰尘等,还有可能来自于设备故障。为了探测这种短时干扰,每个探测器都会记录下几百个辅助频道的时序数据。这些辅助频道负责追踪干涉仪中那些重要的非引力波自由度以及周边环境的信号。
LIGO探测器的主要目的是探测双黑洞合并或超新星内核坍缩等事件产生的瞬时引力波信号,这种信号很容易与短时脉冲波干扰混淆。所以,必须开发出有效的方法来去除短时脉冲波干扰。近年来,研究者尝试了许多方法来解决这个问题,例如多维度分析法(multidimensional classification analysis),通过小波分解(wavelet decomposition)来解决短时脉冲波干扰,采用为多元时间序列设计的分析方法进行分类。有的研究者将最长公共子序列(LCS,Longest Common Subsequence)用在非监督式分类上,用于对短时脉冲波的波形进行分类。LIGO还曾使用一种叫做命令否决列表(OVL,Ordered Veto List)的算法来检测短时脉冲波,这种算法旨在测算引力波候选信号与某一个辅助频道中的瞬时设备扰动之间的相关程度。具体而言,就是用辅助频道中的事件构建一个时间序列的表单,然后根据特定的否决方法,在引力波频道探测到的引力波候选信号中去除掉上述表单。
LIGO科学合作组织(LSC)在中国大陆唯一的成员——清华大学LIGO工作组负责人曹军威教授向机器之心分享了他于2013年参与的一项用机器学习来否决引力波噪声的研究《Application of machine learning algorithms to the study of noise artifacts in gravitational-wave data》,该项研究的目的正是探讨机器学习方法是否能够成功地将引力波信号从LIGO探测到的其他噪声中区分开来。在这项研究中,研究者测试了三种机器学习的方法来识别和分类LIGO探测器中的短时脉冲波干扰。这三种方法分别是人工神经网络(ANN)、支持向量机(Support Vector Machines)和随机森林(Random Forests),发现三种方法都能得到相同的最优解,其中以随机森林最有效。 这项研究使用的数据是LIGO汉福德2005年2月至3月(LIGO第4次运行,即S4)以及LIGO利文斯顿2010年5月至6月(LIGO第6次运行,即S6)的数据。之所以采用两次时间和地点都不同的测试,是因为这有助于检验分析算法的适应性和鲁棒性。分类是机器学习算法的主要用处,这项研究的目的正是用机器学习对数据进行分类,将探测到的数据分为两类,分别是第一类(短时脉冲波干扰,Class 1)和第二类(也就是「干净」的数据,Class 0)。
研究者首先用KleineWelle分析算法将各频道记录下的时序数据简化为一组非高斯的瞬时事件——KleineWelle是一个单天文台探测器频道事件提取软件,基于二进小波变换(Dyadic Wavelet Transform),将经过白化的频道时间序列投射到时移的多尺度基底上,然后根据小波系数再对时频平面上若干局部化的信号能量进行阈值选择和聚类,最终聚类出的每一个类被称为一个事件。它具有良好的时频局部化特性,因此能有效地从任意探测器频道的数据流中捕获各种事件信号。然后,再将这些事件按照统计显著性ρ进行排序。除ρ之外,每个频道还贡献4个数据。以下就是他们采用的三种机器学习方法:
人工神经网络:人工神经网络(ANN)是一种机器学习的技术,模仿人脑神经网络进行数据处理。人脑中包含大量的神经元,每一个神经元都只能进行简单的计算,但它们组成的网络却可以完成极其复杂的任务,包括语音识别和决策等。每个神经元由树突、细胞体和轴突三部分组成。树突接收其他神经元传来的外部刺激,细胞体计算该信号。当刺激的强度超过突触的阈值时,神经元就会放电,用轴突向其他神经元传递信息。这个过程可以用一个简单的数学模型来模拟,模型包括节点、网络拓扑结构和适应特定数据处理任务的学习规则。每个节点的特征包括相连的节点数量以及每个输入和输出的权重。网络拓扑结构则是由神经元(即节点)之间的连接来定义的。学习规则则描述了权重的产生和演化方式。ANN有许多模型和结构。在这项研究中,研究者选择的是被广泛使用的多层感知机(multilayered perceptron,MLP)模型。MLP拥有输入层、输出层和二者之间的隐藏层。他们还使用了一种反向传播算法的改进版本。除此之外,他们还发现,输入变量的绝对值更高时,会对输出值产生更大的影响,因此他们预先对特征向量的所有组成部分都进行了归一化处理,将其范围限定在0和1之间。这样的处理提高了ANN识别短时脉冲波干扰的能力。
支持向量机:支持向量机(Support vector machines,SVM)主要用于向量空间内的二元分类,它能够根据训练数据找出一个最优的高维分类曲面。这个高维曲面再被用在特征空间中作为一个决策面,根据事件处于它的哪一边来对事件进行分类。在这项研究中,研究者采用径向基函数作为核函数,并使用了开源的LIBSVM(由台湾大学林智仁教授等开发的SVM模式识别与回归的软件包)。
随机森林:随机森林(Random Forest technology, RF)来源于经典的决策树。分类决策树在特征向量的每个维度上都会分裂成两个分支。在机器学习中,可以用一组已知数据来训练决策树。在训练过程中,每次分裂都会对维度和阈值进行选择,以便实现某种标准下的最大化。当分裂不能再改进优化判据,或到达某个分支上所允许的限值时,分裂就停止了,此点上的分支就成为一片叶子(leaf)。当决策树形成后,就可以把分类未知的事件输入决策树,根据事件的特征向量,它会被标记为Class 0或者Class 1。但是,单个决策树有可能会遇到过度训练等问题。为此,研究者采用了一个决策树组成的森林(包括100棵树,64个随机选择的特征,每片叶子上至少8个样本)来平均化它们的结果。这样,排序的结果就会位于Class 0和 Class 1之间的一个连续统,而不仅是一个二元化的简单分类。
结果显示,在实际应用中,这三种机器学习分类方法在误警(false alarm)的概率上都具有很高的有效性。其中,随机森林的有效性最高。在真实的应用中,需要检验的频道数量极其庞大,即使在数据简化之后,特征空间的维度都还高达1250,使得分类工作极其艰难。但这些机器学习的分类方法能处理庞大的特征数,并且具有很高的鲁棒性,能够检测大量的辅助频道(即便它们并不相关或者是冗余的)。因此,研究者证明了机器学习的方法可以用来开发高效实时的引力波检测工具。
3)未来的方向LIGO和Virgo探测器记录着成千上百的数据频道,这些数据为我们提供了理解短时脉冲波干扰及其成因的好机会。由于数据过于庞大,无法用人力进行检验。因此,开发自动检验和监督式/非监督式学习技术(尤其是主成分分析或独立成分分析)非常重要,不仅可以对数据流中的短时脉冲波干扰进行成因分析,还能揭示出隐藏的探测器故障,并识别出那些值得用人力进行监测的数据频道。
2,响应函数评估
LISA的引力波响应涉及到一个与时间有关的多普勒数据流组合。这个数据流组合与航天器之间的相对速度和加速度有关,而这又是由多普勒数据决定的。相对速度和加速度还受到航天器天线周期性重指向(repointing)的微妙影响——每隔一段时间,天线就需要重新指向,因为它们需要和地球保持联系。然而,每次天线重指向之后,我们就失去了关于LISA响应的知识,需要重新计算。 随着数据量越来越多,天线重定向之后对LISA响应的重新评估就可以用机器学习的方法来解决。实际上,LISA在重指向之后的敏感性并不依赖于时间——只不过我们对LISA响应的知识是依赖于时间的,就会造成延迟。如果我们可以接受这种延迟,那么每一组重指向后的数据集都可以被用在后验分析中。但是,要接受这种延迟通常需要牺牲LISA的科学潜力,比如说会推延引力波暴的识别,这将使我们错失让传统望远镜及时转向和搜寻相应电磁现象的好机会。如果采用机器学习,将省去这个恼人的延迟,实现响应函数的自动评估。
3,来源分析
在引力波的探测中,除了识别出正确的引力波信号,还有一些很重要的事情,比如判断引力波的来源、它们的天体物理学性质和演化程度等。随着数据量的增长,这些分析也很适合交给机器学习来完成。
1)超大质量双黑洞系统正如本次LIGO的成果一样,LISA也将探测质量在45~75倍太阳质量之间的双黑洞系统。LISA能在它们合并前的数月甚至数年探测到它们。这些黑洞的能量将以引力波的形式释放出来,最终合并成一个更大的黑洞。在它们合并之前,LISA将累积庞大的探测数据。有了这些数据,黑洞系统的质量、距离、位置、预计合并时间等性质,都将随着数据的增加而逐渐清晰,让我们有时间将电磁波望远镜指向那个天区,观测这场罕见的星际大撞车带来的电磁波事件。对这些数据进行合理的分析,也是LISA项目成功的关键之所在。在这种分析中,机器学习大有可为。
2)信号来源的统计学分析正如之前所提到的,LISA正式上线之后,将观测白矮星双星系统发出的引力波信号。在几千万个双星系统中,我们将辨认出几万个系统的信号,剩下的几千万个系统的信号将被看做是弥漫性的引力波背景,该背景的强度将被用来绘制这些双星系统的空间及演化图谱。随着时间的推移,分辨出来的单个系统和未分辨出单个系统的弥漫性背景的数据都将持续增加。例如,引力波背景最初可能被看成是空间各向同性且光滑的,随着数据的累积,它会逐渐展示出与银道面相关的特征。而那些可分辨的单个引力波来源,也会随着数据的累积而向世人显露出它们的周期和位置等信息,描绘出银河系的三维图景。在这个过程中,机器学习也将非常适合解决这种不断累积的数据分析工作。 我们相信,机器学习作为一种先进的数据处理工具,不仅能给我们带来更好的日常工具(如语音和图像识别),让我们的生活更加便利,也能在理解宇宙的宏大篇章中立有一席之地,帮助我们从纷繁纠结的数据中过滤出那珍宝一般的信息,揭开宇宙的终极秘密。
参考文献: 1,Observation of Gravitational Waves from a Binary Black Hole Merger. B.?P. Abbott et al. (LIGO Scientific Collaboration and Virgo Collaboration). Phys. Rev. Lett. 116, 061102 – Published 11 February 2016 2,Application of machine learning algorithms to the study of noise artifacts in gravitational-wave data. Rahul Biswas - Lindy Blackburn - Junwei Cao - Reed Essick - Kari Hodge - Erotokritos Katsavounidis - Kyungmin Kim - Young-Min Kim - Eric-Olivier Bigot - Chang-Hwan Lee - John Oh - Sang Oh - Edwin Son - Ye Tao - Ruslan Vaulin - Xiaoge Wang - Physical Review D Phys. Rev. D - 2013 3,Advances in machine learning and data mining for astronomy. Michael Way - CRC Press - 2012 4,Optimizing vetoes for gravitational-wave transient searches. R Essick - L Blackburn - E Katsavounidis - Class. Quantum Grav. Classical and Quantum Gravity - 2013 5,Wikipedia