水和算法有何相似？用物理学来理解大语言模型

编辑 | 白菜叶

十几岁时，捷克共和国的 Lenka Zdeborová 在艾萨克·阿西莫夫的一本小说中瞥见了自己的未来。阿西莫夫的《基地》系列中的一个角色发明了一种数学方法，通过平均数十亿人的随机行为来预测整个文明的发展道路。

Zdeborová 回忆说，这个概念让她有一种「令人着迷的感觉」——当她后来遇到一种可以真正应用于理解大量不可预测元素的方法时，这种感觉又回来了。

「我意识到，『天哪，阿西莫夫只是在描述统计物理学。』」她说，统计物理学是一门利用适用于单个分子的规则来描述物质宏观特性的学科。作为布拉格查理大学 (Charles University) 的物理学硕士生，她对数学的预测能力十分着迷。

后来，在攻读博士学位期间，Zdeborová 的导师向她展示了一篇论文，该论文将统计物理学的技术应用于理论计算机科学——计算和算法行为的数学研究。熟悉的感觉又回来了。

论文链接：https://www.science.org/doi/abs/10.1126/science.1073287

「那篇论文让我完全着迷。」Zdeborová 说道，「我一直认为，要想从事计算机科学，你必须是一名黑客，并且了解 Linux 的一切。我意识到理论计算机科学和理论物理一样令人着迷，于是我说道，『好吧，这就是我想做的事情。』」

Zdeborová 目前领导瑞士洛桑联邦理工学院的统计计算物理实验室。她目前的工作重点是研究物质相变的物理原理（例如水冻结成冰）如何帮助模拟算法的行为，尤其是机器学习中使用的算法。

媒体与 Zdeborová 谈论了水和算法之间的相似之处、使用物理学来理解大型语言模型以及追求不合理的科学目标。为便于理解，采访内容经过了压缩和编辑。

Q：你的工作跨越了学科界限，那么你认为自己是物理学家、计算机科学家还是数学家？

我想说以上都是。我感兴趣的问题主要在计算机科学和机器学习领域。但在理论计算机科学中，一切都应该得到正式证明，直到最后一个细节。而如今的机器学习已经不再发生这种情况了——它太复杂了。

因此，从方法的角度来看，我觉得自己像一个理论物理学家，因为就像在物理学中一样，你可以尝试用数学上严谨的理论来解释现象，即使它们可能没有正式的数学证明。

Q：统计物理学如何帮助你理解计算机科学？

理论计算机科学通常教给学生的是关注最坏的情况——问题难以计算的情况。这就是这个领域的起源；也是我们取得美好成果的地方。但最坏情况和典型情况是有区别的。

机器学习就是一个明显的例子。因此，即使对于高维数据（例如，我们想要检测疾病的某些标记物的数百万像素的医学成像），问题的相关实例在计算上通常也不像最坏情况那么困难。

统计物理学正是从这里开始发挥作用的，因为从历史上看，统计物理学是处理这些高维问题的科学领域。当你想描述许多分子同时相互作用的行为时，统计物理学就会提出概率分布。

这些是数学对象，以非常相似的形式出现在计算机科学中，描述执行给定算法时数据位如何交互。统计物理学起源于一个世纪前，当时计算机科学还不存在。幸运的是，到 21 世纪我攻读博士学位时，这两个学科已经意识到它们之间有多少共同之处。

Q：他们有什么共同点？

在这两种情况下，从微观描述中提取系统的宏观行为都很困难。

虽然牛顿定律和量子力学可以非常详细地描述水分子如何相互作用，但我们如何得出水在零摄氏度时会结冰的结论呢？

这根本不明显！甚至到了 20 世纪 40 年代，这个问题仍未得到解决。关于水的相变，尤其是在高压下的相变，仍有许多问题有待解答。

同样，在计算机科学中，存在一些定义非常简单的问题，算法也相对简单，我们不知道它们在什么条件下会起作用。在我的博士论文中，我们研究了图着色问题，一个 5 岁的孩子就能理解。

你有一些点，有些点通过边连接起来，这样就形成了一个图。你想用三种颜色中的一种给每个点上色。如果两个点连接起来，它们就不能有相同的颜色。那么你能给图上色吗？

对于解决这个问题的任何给定算法，你都可以理解它，甚至编写代码，它也会运行。但如果我问：「你能告诉我这个算法什么时候有效，什么时候无效吗？」对于大多数算法，我们不知道。这就是理论计算机科学的总体现状：即使对于像这样的简单问题，当我们开始询问有关算法行为的自然问题时，我们常常没有答案。

Q：如果完全理解算法如此困难，相变如何能有所帮助呢？

我们研究的相变并不是物理上的，比如水变成冰。但它们是类似的，在某些条件下，系统的行为会发生急剧、突然的变化。在神经网络中，最先要描述的转变之一是学习效率如何取决于训练数据的数量。

你采用一个从高维数据（如具有数百万像素的图像）中学习的神经网络，然后在某些简化的设置下分析网络需要多少个训练样本才能学习到一定精度的函数。

你会得到一个我们所说的阶段转变，即系统最佳性能的突然变化。这些条件会告诉你学习的难易程度，以及寻找更好的算法是否有意义。

Q：这种方法是否帮助你了解了这些复杂系统的新知识？

在最近的工作中，我们确实发现大型语言模型的简化版本的性能存在相变，但同样有趣的是相变两侧两个阶段的性质。

论文链接：https://arxiv.org/abs/2402.03902

在物理学中，相变的数学描述中有一些量，我们称之为序参量。它们能让你了解相变的真正含义。这让我们明白磁性与原子排列有关：在一个相中，整体排列很大，而在另一个（非磁性）相中，没有排列。

这就是我们在语言模型的数学描述中出现的美妙之处。有两个顺序参数，每个参数都有精确的含义。一个顺序参数决定了学习是否在很大程度上依赖于句子中单词的位置。另一个顺序参数具体是关于每个单词的含义，即语义。

当我们观察相变时，我们发现，在训练示例的某个阈值以下，只有位置才是重要的，而不是语义。如果我们有更多高于该阈值的示例，那么只有语义才是重要的。

因此，从某种意义上说，这是位置学习和语义学习之间的一种新型相变，我们可以在简化的语言模型中对其进行描述。对我来说，这是理解大型语言模型中出现的属性的一小步，比如突然能够做算术、用希腊语回答问题或诸如此类的事情。

Q：你认为这些小步骤能够给你带来什么结果呢？

我非常喜欢的类比是热力学。18 世纪蒸汽机的出现引发了工业革命：铁路、公司和许多东西都依靠蒸汽机运转，而这一切都发生在人们不了解热力学的情况下。那是几十年后的事情了，灵感来自于想要了解蒸汽机。从那以后，许多其他物理学诞生了。

这可能是一个完全不合理的目标，但你知道，总得有人提出机器学习的热力学理论。我很想成为那个人。如果不是我，而是别人，那也很好。但我一定会努力实现这个目标。

相关内容：https://www.quantamagazine.org/the-computer-scientist-who-builds-big-pictures-from-small-details-20241007/

理论计算机科学基地阿西莫夫物理学模型