在自动驾驶等许多重要应用中,数据都是实时动态的,并且时不时还会出现一些意外情况。为了高效地应对这一问题,MIT 的研究者受生物神经元启发而设计了一种新型神经网络,并且他们还通过理论证明和实验验证体现了该神经网络的有效性。相关代码也已公布。
麻省理工学院(MIT)的研究者开发出了一种新型的神经网络,其不仅能在训练阶段学习,而且还能持续不断地适应。他们将这种灵活的算法命名为「Liquid」网络,因为其能像「液体」一样改变其底层的数学方程以持续适应新的输入数据。这一进展能助力基于动态变化数据的决策任务,比如医疗诊断和自动驾驶中涉及到的任务。「这条路能迈向未来的机器人控制、自然语言处理、视频处理——任何形式的时间序列数据处理。」该研究的主要作者 Ramin Hasani 说,「它的潜力确实很大。」该研究论文是 AAAI 2021 会议入选论文之一。Hasani 说,为了理解世界,时间序列数据不仅无处不在,而且至关重要,不可或缺。「真实世界都与序列有关。我们的感知方式也是如此——你感知的不是图像,而是图像的序列。」他说,「因此,时间序列数据实际上创造了我们的现实。」他指出,视频处理、金融数据和医疗诊断应用都涉及到时间序列,而且这些应用对我们的社会至关重要。这些不断变化的数据流的变化情况难以预测。但是,如果能够实时地分析这些数据,并将它们用于预测未来的行为,那么就能极大促进自动驾驶等技术的发展。Hasani 等研究者设计了一种能适应实时世界系统的变化的神经网络。神经网络的设计灵感来自生物大脑,而 Hasani 说他们的这种特定神经网络的设计灵感直接来自秀丽隐杆线虫(C. elegans)。他说:「它的神经系统仅有 302 个神经元,但却可以产生超出预期的复杂动态。」通过仔细观察秀丽隐杆线虫的神经元的激活方式以及彼此通过电脉冲通信的方式,Hasani 编码出了他的神经网络。在其用于构建神经网络的方程式中,参数可基于一组嵌套的微分方程的结果而随时间变化。算法 1:由聚合的常微分方程(ODE)求解算法实现的 Liquid 时间常量(LTC)循环神经网络,其中 θ 是参数空间,f 可以是任意激活函数。
算法 2:通过随时间反向传播(BPTT)训练 LTC。这种灵活性是其中的关键。在训练阶段之后,大多数神经网络的行为都会固定下来,这意味着它们难以根据输入数据流的变化而进行调整。Hasani 说他的 Liquid 网络的流动性使其能更弹性地应对意料之外的数据或噪声数据,比如滂沱的暴雨遮蔽了自动驾驶汽车的摄像机视野。「也就是说,它更加鲁棒。」Hasani 并补充道网络灵活性还有另一大优势:「它也更能被解释。」Hasani 说他的 Liquid 网络规避了其它神经网络常见的难解性。「只是改变神经元的表征方式,你就可以探索以其它方式无法探索的某种程度的复杂性。」Hasani 采用的改变方式是使用微分方程。得益于这种数量少但却具有高度表征能力的神经元,可以更轻松地窥探网络决策过程的「黑箱」并诊断网络为何具有某种特定的特征。Hasani 说:「这个模型本身具有丰富的表现力。」这能够帮助工程师理解和提升 Liquid 网络的性能。图 1:通过轨迹长度衡量表现力,静态深度网络的轨迹隐含空间会随着输入穿过隐含层而变得更加复杂。图 2:通过轨迹长度衡量表现力,使用不同激活函数的 LTC。Hasani 的网络在一系列测试中都取得了出色表现。在从大气化学到交通模式分析等多种任务中,新提出的方法在预测未来值方面的表现优于其它当前最佳时间序列算法几个百分点。此外,由于该网络尺寸小,因此在测试的计算成本也低得多。「每个人都在谈扩大他们的网络」,Hasani 说,「我们想的是缩小,以便获得更少但更丰富的节点。」Hasani 计划继续改进该系统,并探索其行业应用。「受大自然启发,我们已经有了一个得到证明的更有表现力的神经网络。但这个过程才刚刚开始。」他说,「显而易见的问题是:我们如何扩展它?我们认为这类网络将成为未来智能系统的关键组件。」原文链接:https://news.mit.edu/2021/machine-learning-adapts-0128