终于，Yann LeCun发文驳斥Gary Marcus：别把一时的困难当撞墙

Yann LeCun：人们应该怀疑深度学习是否已达到极限。

自从今年三月份 Gary Marcus 发表了「深度学习撞墙了」这个观点，人工智能学界就陷入了一波又一波的争论。

争议初期，深度学习三巨头还对此保持沉默。但在本月初的一场播客节目中，Geoffrey Hinton 率先驳斥了 Gary Marcus。

Hinton 说完，Yann LeCun 也发声了。

近日，美国 NOEMA 杂志发表了一篇题为《What AI Can Tell Us About Intelligence》的署名文章，作者是图灵奖得主 Yann LeCun 和纽约大学计算机科学系博士后 Jacob Browning 二人。

在这篇文章中，Yann LeCun 和 Jacob Browning 探讨了人工智能和人类智能的一些问题，且首次正式回应「深度学习撞墙了」这个观点。

文章内容如下：

当代人工智能的主要技术是深度学习神经网络，这是一种大规模的自学习算法，擅长识别和利用数据中的模式。从一开始，批评者就过早地认为神经网络已经遇到了不可翻越的墙，但每次都被证明只是一个暂时的障碍。

1960 年代，他们无法求解非线性函数，这个问题在 1980 年代随着反向传播的出现解决了。很快又出现了新的障碍——训练系统的难度。1990 年代出现了简化程序和标准化架构，这使得训练更加可靠，然后新的问题又变成了缺乏训练数据和计算能力。

2012 年，当显卡可以在海量 ImageNet 数据集上进行训练之后，深度学习成为了主流，轻松击败了所有竞争对手。但随后批评者发现了一个新问题：深度学习需要太多手工标记的数据进行训练。

过去几年，这种批评变得毫无意义，因为自监督学习已经产生了令人难以置信的卓越系统，例如不需要标记数据的 GPT-3。

今天看似不可逾越的墙是符号推理，即以代数或逻辑的方式操纵符号的能力。我们知道，解决数学问题需要根据严格的规则逐步处理符号。作为《The Algebraic Mind》的作者和《Rebooting AI》的作者之一，Gary Marcus 最近声称深度学习无法进一步取得进展，因为神经网络在处理符号操作方面存在困难。然而，许多深度学习研究人员确信深度学习已经在进行符号推理并将持续改进。

这是一场关于深度学习前景的辩论。辩论的核心是对符号在智能中的作用存在两种不同的看法：一种认为符号推理必须从一开始就被硬编码，另一种认为机器可以像人类一样从经验中学习。这涉及到我们应该如何理解人类智能，进而去追求人类水平的人工智能。

两种类型的人工智能

符号推理需要精确的计算规则。例如，符号可以有许多不同的顺序，(3-2)-1 和 3-(2-1) 的区别很大，以正确的顺序执行正确的规则至关重要。Marcus 认为，这种推理是认知的核心，对于为语言提供潜在的语法逻辑和数学的基本操作至关重要。更广泛地说，他认为因果推理等更基本的能力背后有一个潜在的符号逻辑。

实际上，人工智能领域始于研究这种推理，通常称为符号人工智能，或「老式人工智能（GOFAI）」。但是，将人类专业知识提炼成一套规则是非常困难、耗时且高成本的。这被称为「知识获取瓶颈」。虽然为数学或逻辑编写规则很简单，但世界本身却非常模棱两可，事实证明，不可能编写管理所有的模式规则或为模糊概念定义符号。

然而，这正是神经网络擅长的地方：发现模式和接受歧义。神经网络是一组相对简单的方程，它们学习一个为输入提供输出的函数。

例如，我们可以训练一个视觉识别系统，找出所有包含椅子的图像，这本身是一种较为模糊的属性。这允许网络成功地推断出图中新对象是否是一把椅子，只需通过比较它与其他椅子图像的接近程度。使用足够多的对象和足够多的类别进行此操作就会产生一个强大的概念空间，其中许多类别以重叠但仍可区分的方式聚集在一起。

我们面临的问题不仅是关于人工智能发展的问题，还有什么是智能以及大脑是如何工作的。

神经网络可以精确训练，因为实现的函数是可微的。换句话说，如果符号人工智能类似于符号逻辑中使用的离散 token，那么神经网络就是微积分的连续函数。这允许在学习更好表征的方向上稍微调整变量来实现缓慢、渐进的进展，这意味着所有数据点之间的更好拟合以及函数在类别之间存在边界。然而，当涉及到严格的规则和离散符号时会出现问题：求解方程时，我们通常需要准确的答案，而不是近似值。

这是符号人工智能的优势，Marcus 建议简单地将两者结合起来：在深度学习模块的顶部插入一个硬编码的符号操作模块。这听起来很有吸引力，因为两种方法可以很好地互补。因此，一个具有不同工作方式的模块混合系统似乎可以提供两全其美的效果。深度学习领域也认同符号操作是创建类人 AI 的必要特征。

但争论的焦点是符号操作是否需要内置到系统中，其中符号和操作能力是由人类设计的，形成一个用于操作离散符号的模块。该模块是不可微分的，因此与深度学习不兼容。但这些建立神经网络不能进行符号操作的假设基础上。

神经网络中的符号推理

这个假设很早就存在较大的争议。神经网络方法传统上认为不需要手工创建符号推理，而是可以学习它，训练机器使用符号示例进行正确推理将允许机器学会这种抽象模式。简而言之，尽管没有内置手工制作的符号和符号操作规则，但机器可以学习操作现实世界的符号。

当代大型语言模型（例如 GPT-3 和 LaMDA）显示了这种方法的潜力。它们具有令人印象深刻的符号操纵能力，并掌握某种程度的常识推理。这些大模型具备多语言、逻辑和数学等令人惊讶的能力。

但这样做并不可靠。DALL-E 可以轻松创作一个穿着热带衬衫、戴着眼镜、留着胡子、戴着眼镜的哲学家的罗马雕塑，但如果让它画一只戴着粉色背带的小猎犬追逐松鼠，有时你会得到一只粉色的小猎犬或一只戴着背带的松鼠。

当它将所有属性分配给单个对象时，效果很好，但是当有多个对象和多个属性时就会出现问题。许多研究人员认为这是深度学习通往类人智能道路上的一个障碍。

然而，Marcus 的看法不是这样的。他假设，符号推理是全有或全无的——因为 DALL-E 没有符号和其操纵逻辑规则，它实际上并不是用符号进行推理。因此，大型语言模型中的众多失败表明它们并不是真正的推理，而只是在进行苍白的模仿。

Marcus 认为，正如古老的 AI 格言所说，爬足够大的树是无法到达月球的。因此，他认为当前的深度学习语言模型并不比 Nim Chimpsky（一只会使用手语的黑猩猩）更接近真正的语言。DALL-E 的问题并不是缺乏训练的窍门，而是系统根本没有掌握句子的基本逻辑结构，因此无法正确将不同部分连接成一个整体。

这就是为什么说从一个角度来看，深度学习的问题是「障碍」，而从另一个角度来看则是「墙壁」。基于有关符号推理性质的背景假设，相同的现象可以看起来不同。对于 Marcus 来说，如果你一开始未拥有符号操纵，你就永远不会拥有它。

相比之下，Geoffrey Hinton 等人认为神经网络不需要将符号和代数推理硬编码到其中就可以操纵符号。深度学习的目标不是机器内部的符号操纵，而是世界系统中出现的正确类型的符号使用行为。拒绝混合模式不是未经思索的，而是基于「一个人是否认为可以学习符号推理」的哲学差异。

人类思想的本质

Marcus 对深度学习的批判源于认知科学（以及在哲学中更古老）的一场相关斗争，即关于智能如何产生以及是什么让人类得以独特。他的想法与心理学中一个著名的「先天论」学派一致，该学派认为认知的许多关键特征是与生俱来的——实际上，我们很大程度上天生就有一个关于世界如何运作的直观模型。

这种与生俱来的架构的一个核心特征是符号操纵的能力，关于这是整个自然界中均有的还是人类特有的，尚存在争议。对于 Marcus 来说，这种符号操纵能力是常识的许多基本特征的基础：遵循规则、抽象、因果推理、重新识别细节、概括和许多其他能力。简而言之，我们对世界的大部分理解都是自然赋予的，而学习则是充实细节的过程。

另一种「经验主义」观点则颠覆了这一点：符号操纵在自然界中是罕见的，主要是作为我们的人类祖先在过去两百万年中逐渐获得的学习交流能力而产生的。根据这种观点，主要的认知能力是与提高生存率相关的非符号学习能力，例如快速识别猎物、预测它们可能的行为以及发展熟练的反应。这个观点假设绝大多数复杂的认知能力是后天获得的，是通过一种普遍的、自监督的学习能力获得，这是一种通过经验获得具有常识核心特征的直观世界模型的能力。它还假设，我们大多数复杂的认知能力都不会依赖于符号操纵，相反是通过模拟各种场景并预测最佳结果来做到这一点。

这种经验主义观点将符号和符号操纵视为另一种学习能力，随着人类越来越依赖合作行为取得成功，物种获得了这种能力。这种观点将符号视为我们用来协调合作活动的发明——比如文字，还有地图、标志性描绘、仪式甚至社会角色。这些能力被认为是由于越来越长的学习青春期和对更精确、更专业的技能（如工具制造和消防维修）需求的结合而产生的。这一观点认为符号和符号操作主要归于文化发明，较少依赖于大脑中的硬接线（hard wiring），而更多地依赖于我们日益复杂的社会生活。

这两种观点之间的差异非常明显。对于先天论传统来说，符号和符号操纵本就在大脑之中，而文字和数字的使用正是从这种原始能力中衍生出来的。这种观点很具吸引力地解释了一系列源于进化适应的能力（尽管对于符号操纵如何或为何进化的解释一直存在争议）。对于经验主义传统来说，符号和符号推理是用于交流目的的有用发明，它源于一般的学习能力和复杂的社会世界。内部计算和内心独白等发生在我们头脑中的象征性东西，因而被视为源自数学和语言使用的外部实践。

人工智能和认知科学领域密切相关，因此这些争论的重演也就不足为奇了。人工智能领域中任一观点的成功，都会在部分程度上证明认知科学中的一种或另一种方法是正确的（但也仅是部分程度上），因此这些争论之激烈也就不足为奇了。现在面临的问题不仅是关于人工智能当代问题的正确方法，还有关于什么是智能以及大脑如何工作的问题。

赌注究竟是什么？

为什么深度学习撞墙的说法如此具有挑衅性？如果 Marcus 和先天论者是对的，那么深度学习将永远无法实现类人的 AI，无论它提出了多少新架构或投入了多少计算能力。不断添加更多层只会令人困惑，因为真正的符号操纵需要一个与生俱来的符号操纵者。而且，由于这种符号操作是几种常识能力的基础，因此深度学习系统将永远不会拥有任何东西，只能拥有对事物粗略、现成的理解。

相比之下，如果深度学习的倡导者和经验主义者是正确的，那么插入符号操纵模块的想法是令人困惑的。在这种情况下，深度学习系统已经在进行符号推理，并将继续改进它，因为它们通过更多的多模态自监督学习、越来越有用的预测世界模型以及用于模拟的工作内存的扩展以及评估结果来满足约束。引入符号操纵模块不会导致更像人类的 AI，而是迫使所有「推理」通过一个不必要的瓶口，让我们与类人智能渐行渐远。这可能会切断深度学习最令人印象深刻的方面之一：它能够提出比人类程序员想象的更有用和更聪明的解决方案。

尽管赌注很高，但同样重要的是，这些辩论中提出的许多问题至少在某种程度上是次要的。比如一些讨论：深度学习系统中的高维向量应该被视为离散符号（可能不是），实现深度学习系统所需的代码行是否使其成为「混合」系统（语义），在复杂游戏中获胜是否需要手工的、特定领域的知识，或者它是否可以学习（说得太早了）。还有一个问题是混合系统是否有助于解决围绕人工智能的伦理问题（否）。

而这一切都不是为了证明这场愚蠢的炒作是合理的：当前的系统没有意识——它们并不能理解我们，强化学习还不够，你不能仅仅通过扩大规模来建立类人智能。但所有这些问题都与主要争论无关：符号操纵是否需要硬编码，还是可以学习？

这是停止研究混合模型（即具有不可微分符号操纵器的模型）的呼吁吗？当然不是。研究人员自 1980 年代以来一直在研究混合模型，但尚未证明它们是灵丹妙药——或者在许多情况下，甚至远不及神经网络。更广泛地说，人们应该怀疑深度学习是否已达到极限。

鉴于最近 DALL-E 2、Gato 和 PaLM 中任务的持续、增量改进，避免将「障碍」误认为「墙壁」似乎是明智之举。深度学习不可避免的失败之前就已经能预料到，但押注它是不值得的。

原文链接：

https://www.noemamag.com/what-ai-can-tell-us-about-intelligence/

产业Gary MarcusYann LeCun