2023/10/26 18:55

Nature | 30多年前的断言被打破了？大模型具备了人类水平的系统泛化能力

我们知道，人类具有「举一反三」的能力，即学习一个新概念后立即就能用它来理解相关用法。例如，当小朋友知道如何「跳」，他们就会明白「在房间里跳两次」是什么意思。

而对于机器来说，这种能力是极具挑战性的。20 世纪 80 年代末，哲学家和认知科学家 Jerry Fodor 和 Zenon Pylyshyn 认为人工神经网络缺乏系统组合的能力。几十年来，领域内的研究人员一直在努力让神经网络具备一些泛化能力，但能力很有限。因此，关于 Jerry Fodor 和 Zenon Pylyshyn 的观点的争论也一直存在。

现在，来自纽约大学和庞培法布拉大学的研究人员联合提出了一种称为「组合性元学习 (Meta-learning for Compositionality，MLC) 」的新方法，该方法可以提高 ChatGPT 等工具进行组合泛化的能力。

实验结果表明，MLC 方法不仅优于现有方法，还表现出人类水平的系统泛化（systematic generalization，SG）能力，在某些情况下甚至优于人类。组合泛化能力也是大型语言模型（LLM）有望实现通用人工智能（AGI）的基础。

这项研究表明 AI 模型可以具备较强的组合泛化能力，具有里程碑意义。研究论文发表在《Nature》杂志上。

论文地址：https://www.nature.com/articles/s41586-023-06668-3

方法介绍

在 MLC 方法中，神经网络会不断更新以提高其在一系列场景（episode）中的技能。在一个场景中，MLC 会收到一个新单词，并被要求组合使用该单词。例如，使用单词「jump」来创建新的单词组合，例如「jump times」、「jump around right times」；然后 MLC 接收一个包含不同单词的新场景，依此类推，每次都会提高神经网络的组合技能。

如下图所示，四个原语是从一个输入单词到一个输出符号的直接映射，每个输出符号都是一个特定颜色的圆圈。例如，「dax」对应红色圆圈（RED），「wif」对应绿色圆圈（GREEN），「lug」对应蓝色圆圈（BLUE）。「fep」、「blicket」和「kiki」是带有参数的函数。

函数 1（fep）将前面的原语作为参数，重复其输出其三次（例如「dax fep」是 RED RED RED）；函数 2（blicket）将前面的原语和后面的原语作为参数，以特定的交替序列生成输出（例如「wif blicket dax」是 GREEN RED GREEN）；最后，函数 3（kiki）将前面和后面的字符串作为输入，以相反的顺序连接它们作为输出（例如「dax kiki lug」为 BLUE RED）。该研究还测试了函数 3 的参数由其他函数生成的情况，例如「wif blicket dax kiki lug」为 BLUE GREEN RED GREEN）。

如下图 4 所示，MLC 实现采用标准的 seq2seq transformer。该架构涉及两个协同工作的神经网络 —— 一个编码器 transformer 用于处理查询输入和学习样本，一个解码器 transformer 用于生成输出序列。编码器和解码器都有 3 层，每层 8 个注意力头，输入和隐藏嵌入大小为 128，前馈隐藏大小是 512，使用 GELU 激活函数替代 ReLU。整个架构总共有大约 140 万个参数。

编码器网络（图 4（下））负责处理一个串联的源字符串，该字符串将查询输入序列与一组研究样本（输入 / 输出序列对）组合在一起。解码器网络（图 4（上））从编码器接收消息并生成输出序列。

MLC 使用标准的 transformer 架构进行基于记忆的元学习。具体来说，每个场景都会构成一个通过随机生成的潜在语法定义的特定 seq2seq 任务。

实验结果

为了展示 MLC 的能力，该研究在一个使用伪语言（pseudolanguage）的教学学习实验中，将 MLC 与人类进行了比较。主要结果包括以下几点。

人类表现出很强的系统性，但也依赖于归纳偏置，有时会偏离纯粹的代数推理（algebraic reasoning）。

MLC 在实验中实现了人类水平的系统泛化（SG）。当进行随机响应时，MLC 还会产生类似人类的错误模式，例如一对一映射和图标串联等偏置。

MLC 在预测人类行为方面优于更严格的系统模型和基本的 seq2seq 模型。它在某些指标上也超过了人类的表现。联合优化的 MLC 模型很好地捕捉了人类反应的细微差别。

MLC 通过元学习在 SCAN 和 COGS 等系统泛化基准测试中取得了较高的准确率，而 basic seq2seq 在这些测试中失败。

该研究发现，与完美系统但严格的概率符号模型和完美灵活但非系统的神经网络相比，只有 MLC 实现了模仿人类表现所需的系统泛化和灵活性。

接下来，我们看一些具体的实验报告展示。

如上图 2 所示，该研究给参与者 (n = 25) 提供了 14 个学习指令（输入 / 输出对）的课程，并要求参与者为 10 个查询指令产生输出。

结果显示，在 80.7% 的情况下，参与者能够生成与代数标准（algebraic standard ）完全匹配的输出序列（由图 2b (i) 中的星号表示）。如果长度已知，则双长度输出序列的概率性能为 2.8%，而对于较长的序列则呈指数级降低。值得注意的是，在 72.5% 的情况下，参与者也正确地归纳了比训练期间看到的更长的输出序列 (图 2b (i) 中的最后一个指令显示了一个例子)，这是神经网络经常难以做到的一种泛化。

如下图 3 是在开放式指令任务上的结果，不同的人类参与者（n=29）被要求对七个未知指令的输出以及它们之间的关系做出合理的猜测（用一系列彩色圆圈响应 fep fep 或 fep wif），并且实验过程中，不让参与者看到任何的输入、输出示例从而影响结果。

在 29 位参与者中，有 17 位（约占 58.6%）的响应模式类似于图 3a,b (左)，这与三种归纳偏置完全一致。在所有的回答中，29 名参与者中有 18 名遵循一对一 (62.1%)，29 名参与者中有 23 名 (79.3%) 遵循标志性的串联，除了两人之外，所有参与者都遵循相互排他性来对每个指令做出唯一的响应（29 名中的 27 名，93.1%）。

总的来说，MLC 方法通过动态的合成任务流来指导神经网络的训练，从而实现了模仿人类表现所需的系统泛化和灵活性。

感兴趣的读者可以阅读论文原文，了解更多研究内容。

^{参考链接：}

^{https://www.nature.com/articles/d41586-023-03272-3https://www.nature.com/articles/s41586-023-06668-3https://www.sciencedaily.com/releases/2023/10/231025163006.htmhttps://twitter.com/LakeBrenden/status/1717198382115221859https://twitter.com/IntuitMachine/status/171724086849775617}

理论Meta-learning for Compositionality，MLC组合性元学习

相关数据

激活函数技术

在计算网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

来源：维基百科 Google ML glossary

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

元学习技术

元学习是机器学习的一个子领域，是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是，我们如果想使智能体掌握多种技能、适应多种环境，则不应该从头开始在每一个环境中训练每一项技能，而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务，因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法，又叫元学习（meta-learning），是通往可持续学习多项新任务的多面智能体的必经之路。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

通用人工智能技术

通用人工智能（AGI）是具有一般人类智慧，可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标，也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机器具有执行通用智能行为（general intelligent action）的能力。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知能力。

来源：wikipedia