Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

使神经网络更容易理解,促进科学发现,MIT刘子鸣团队新架构

图片

编译 | 白菜叶

神经网络是目前人工智能领域最强大的工具。」Perimeter Institute for Theoretical Physics 的研究员 Sebastian Wetzel 表示,「当我们将它们扩展到更大的数据集时,没有什么可以与之竞争。」

然而,一直以来,神经网络都存在一个缺点。当今许多成功网络的基本构建模块被称为多层感知器(MLP)。但尽管取得了一系列成功,人类仍然无法理解基于这些 MLP 构建的网络是如何得出结论的,或者是否存在一些基本原理可以解释这些结果。神经网络所表现出的能力就像魔术师一样,都是秘密,隐藏在「黑匣子」里。

人工智能研究人员长期以来一直想知道不同类型的网络是否有可能以更透明的方式提供同样可靠的结果。

2024 年 4 月的一项研究提出了一种替代神经网络设计,称为 Kolmogorov-Arnold 网络(KAN),它更加透明,但对于某一类问题,它几乎可以完成常规神经网络可以完成的所有事情。它基于 20 世纪中叶的一个数学思想,该思想在深度学习时代被研究人员重新认识。

图片

论文链接:https://arxiv.org/abs/2404.19756

虽然这一创新仅有几个月的历史,但新设计已经引起了研究和编码界的广泛兴趣。约翰霍普金斯大学计算机科学家 Alan Yuille 表示:「KAN 更易于解释,可能特别适用于科学应用,因为它们可以从数据中提取科学规则。[它们是] 无处不在的 MLP 的一种令人兴奋的新替代品。」

「实现不可能」

典型的神经网络的工作原理如下:人工神经元(或节点)的各层通过人工突触(或边)相互连接。信息通过每一层,在那里被处理并传输到下一层,直到最终成为输出。边是有权重的,因此权重较大的边比其他边具有更大的影响力。在一段称为训练的时间内,这些权重会不断调整,以使网络的输出越来越接近正确答案。

神经网络的一个常见目标是找到一个数学函数或曲线,以最佳方式连接某些数据点。网络越接近该函数,其预测就越好,结果就越准确。如果您的神经网络模拟某些物理过程,则输出函数将理想地表示描述物理学的方程 - 相当于物理定律。

对于 MLP,有一个数学定理可以告诉你网络可以多接近最佳函数。这个定理的一个结果是 MLP 无法完美地表示该函数。

但在适当的情况下,KAN 可以。

KAN 进行函数拟合(连接网络输出的点)的方式与 MLP 完全不同。KAN 不依赖具有数值权重的边,而是使用函数。这些边缘函数是非线性的,这意味着它们可以表示更复杂的曲线。它们也是可学习的,因此可以比 MLP 的简单数值权重以更高的灵敏度进行调整。

然而在过去的 35 年里,人们认为 KAN 从根本上来说不切实际。麻省理工学院物理学家、计算神经学家 Tomaso Poggio 在 1989 年的一篇论文中明确指出,KAN 核心的数学思想「与学习网络无关」。

论文链接:http://cbcl.mit.edu/people/poggio/journals/girosi-poggio-NeuralComputation-1989.pdf

Poggio 的关注点之一可以追溯到 KAN 核心的数学概念。1957 年,数学家 Andrey Kolmogorov 和 Vladimir Arnold 在各自但互补的论文中表明,如果你有一个使用多个变量的单一数学函数,你可以将其转换为多个函数的组合,每个函数都有一个变量。

然而,有一个重要的问题。该定理得出的单变量函数可能不「平滑」,这意味着它们可能具有像 V 的顶点一样的尖锐边。对于任何试图使用该定理重新创建多变量函数的网络来说,这都是一个问题。更简单的单变量部分需要平滑,以便它们能够在训练期间学会以正确的方式弯曲,以匹配目标值。

因此,KAN 的前景似乎并不乐观——直到今年 1 月的一个寒冷的日子,麻省理工学院物理学研究生刘子鸣(Ziming Liu)决定重新审视这个课题。他和他的导师、麻省理工学院物理学家 Max Tegmark 一直致力于让神经网络更易于理解,以用于科学应用——希望能够让人们一窥黑匣子内部——但事情并没有进展。

无奈之下,刘子鸣决定研究一下 Kolmogorov-Arnold 定理。他问道:「为什么不试一试,看看它是如何运作的,即使过去人们并没有给予它太多关注?」

Tegmark 熟悉 Poggio 的论文,并认为这一努力将再次走向死胡同。但刘子鸣没有气馁,Tegmark 很快就改变了主意。他们认识到,即使该定理生成的单值函数不平滑,网络仍然可以用平滑函数来近似它们。

他们进一步了解到,我们在科学中遇到的大多数函数都是平滑的,这使得完美(而非近似)的表示有可能实现。刘子鸣不想在没有尝试的情况下就放弃这个想法,因为他知道,自 35 年前 Poggio 的论文发表以来,软件和硬件已经取得了长足的进步。从计算角度来说,2024 年许多在 1989 年甚至无法想象的事情都将成为可能。

刘子鸣花了大约一周的时间研究这个想法,在此期间,他开发了一些原型 KAN 系统,所有系统都有两层——最简单的网络,以及研究人员几十年来一直关注的类型。双层 KAN 似乎是显而易见的选择,因为 Kolmogorov-Arnold 定理本质上为这种结构提供了蓝图。

该定理具体将多变量函数分解为不同的内部函数和外部函数集。(它们代表了沿着边的激活函数,替代了 MLP 中的权重。)这种安排自然而然地适用于具有内层和外层神经元的 KAN 结构——这是简单神经网络的常见安排。

但令刘子鸣失望的是,他的原型机在完成他设想的科学相关任务时表现都不佳。Tegmark 随后提出了一个关键建议:为什么不尝试使用两层以上的 KAN,这样也许能够处理更复杂的任务?

这种突破性的想法正是他们所需要的突破。刘子鸣刚起步的网络开始展现出希望,因此两人很快联系了麻省理工学院、加州理工学院和东北大学的同事。他们希望团队中既有数学家,又有他们计划让 KAN 分析的领域的专家。

在他们 4 月份的论文中,该团队表明三层的 KAN 确实是可能的,并提供了一个可以精确表示函数的三层 KAN 的示例(而两层 KAN 则不能)。

他们并没有止步于此。此后,该团队尝试了多达六层的神经网络,每层神经网络都能够与更复杂的输出函数相匹配。「我们发现,基本上可以堆叠任意多的层。」论文合著者之一王逸轩 (Yixuan Wang) 说道。

经过验证的改进

作者还将他们的网络用于解决两个现实问题。第一个问题与数学的一个分支有关,称为结理论。2021 年,DeepMind 的一个团队宣布他们已经构建了一个 MLP,在输入了足够多的结的其他属性后,它可以预测给定结的某种拓扑属性。三年后,新的 KAN 复制了这一壮举。然后它更进一步,展示了预测属性与其他所有属性之间的关系——刘子鸣说,这是「MLP 根本做不到的」。

第二个问题涉及凝聚态物理学中一种称为 Anderson 局域化的现象。目标是预测特定相变发生的边界,然后确定描述该过程的数学公式。没有任何 MLP 能够做到这一点。他们的 KAN 做到了。

但 Tegmark 表示,KAN 相对于其他形式的神经网络的最大优势,以及其近期发展的主要动机,在于其可解释性。在这两个例子中,KAN 不只是给出答案,它还提供了解释。「可解释是什么意思?」他问道,「如果你给我一些数据,我就会给你一个可以写在 T 恤上的公式。」

约翰霍普金斯大学研究机器学习的物理学家 Brice Ménard 表示,尽管 KAN 在这方面的能力目前还很有限,但从理论上讲,这些网络可以教会我们一些关于世界的新知识。

Ménard 说:「如果问题实际上可以用一个简单的方程来描述,那么 KAN 网络就很擅长找到它。」但他提醒道,KAN 最适用的领域可能仅限于问题——例如物理学中的问题——其中方程往往只有很少的变量。

刘子鸣和 Tegmark 对此表示同意,但并不认为这是一个缺点。「几乎所有著名的科学公式」——例如 E = mc^2——「都可以用一两个变量的函数来写。」Tegmark 说,「我们所做的绝大多数计算都依赖于一两个变量。KAN 利用这一事实并寻找这种形式的解决方案。」

终极方程

刘子鸣和 Tegmark 的 KAN 论文迅速引起轰动,在大约三个月内就获得了 75 次引用。很快其他团队也开始研究自己的 KAN。

图片

论文链接:https://arxiv.org/abs/2406.11045

清华大学 Wang Yizheng 团队于 6 月在线发表的一篇论文表明,他们的 Kolmogorov Arnold Informed 神经网络 (KINN) 在解决偏微分方程 (PDE) 方面「明显优于」 MLP。Wang 说,这不是小事:「PDE 在科学中无处不在。」

新加坡国立大学研究人员在 7 月份发表的一篇论文则更加喜忧参半。他们得出的结论是,KAN 在可解释性相关任务上的表现优于 MLP,但发现 MLP 在计算机视觉和音频处理方面表现更佳。

图片

论文链接:https://arxiv.org/abs/2407.16674

这两个网络在自然语言处理和其他机器学习任务上的表现大致相当。对于刘子鸣来说,这些结果并不令人意外,因为最初的 KAN 团队的重点一直是「与科学相关的任务」,而可解释性是其中的重中之重。

与此同时,刘子鸣正在努力让 KAN 更加实用和易于使用。8 月,他的团队发表了一篇名为「KAN 2.0」的新论文,他将其描述为「更像是一本用户手册,而不是一篇传统论文」。刘子鸣表示,这个版本更加用户友好,除了原始模型所缺乏的功能外,还提供了一个乘法工具。

图片

论文链接:https://arxiv.org/abs/2408.10205

他和他的合著者认为,这种类型的网络不仅仅是一种达到目的的手段。KAN 促进了该组织所称的「好奇心驱动的科学」,这与长期主导机器学习的「应用驱动的科学」相得益彰。例如,在观察天体运动时,应用驱动的研究人员专注于预测其未来状态,而好奇心驱动的研究人员希望揭示运动背后的物理原理。

刘子鸣希望,通过 KAN,研究人员可以从神经网络中获得更多,而不仅仅是帮助解决原本令人望而生畏的计算问题。他们可能会专注于单纯地获得理解。

相关内容:https://www.quantamagazine.org/novel-architecture-makes-neural-networks-more-understandable-20240911/

理论人工智能神经网络
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
推荐文章
暂无评论
暂无评论~