2019/12/25 14:30

一鸣张倩蛋酱报道

要不要先验？怎么看混合模型？Marcus和Bengio激辩AI未来

Gary Marcus 对于当今人工智能研究的批判终于让深度学习先驱们坐不住了。圣诞节前夕，Marcus 与图灵奖获得者 Yoshua Bengio 进行了一次有关 AI 技术发展方向的现场辩论。

两个人想要讨论的焦点是：「符号处理和因果关系与目前 AI 发展方向之间的关系。」

最近在「风口浪尖上」的 Gary Marcus 是一名成功的科学家、畅销书作家、企业家，以及 Geometric Intelligence (被优步收购的机器学习初创公司) 的首席执行官和创始人。作为一名作家，他经常为《纽约客》和《纽约时报》撰稿，并且是四本书的作者。作为纽约大学心理学和神经科学教授，他在人类和动物行为、神经科学、遗传学和人工智能等领域发表了大量文章，并经常刊登在 Science 和 Nature 等期刊上。

而在另一边，Yoshua Bengio 则是最近一次计算机科学最高奖项图灵奖的获得者，以及 2020 年的 AAAI 当选 fellow。他目前任蒙特利尔大学教授、魁北克人工智能机构 Mila 的科学主管。Bengio 和 Geoffrey Hinton、Yann LeCun 一直被认为是深度学习先驱。正是他们在三十年以前发展了深度学习概念基础，从而引领了最近一次 AI 技术的爆发。12 月 21 日，Bengio 和 LeCun 又双双入选 2020 AAAI Fellow，这是对他们长期以来坚持深度学习研究和应用的一种肯定。

总体观察来看，两方争论的焦点在于符号处理（symbol manipulation）和因果关系与目前 AI 发展方向的联系。Gary Marcus 认为，符号处理对于因果关系至关重要。在人类等高级生物中，人们发现了很多分工不同的大脑区域。期望复制完整的体系结构是非常不现实的。

Yoshua Bengio 等人认为，我们可以在保持深度学习框架的同时加入因果推理，新的人工智能系统或许可以利用注意力机制，或者通过新的模块和训练框架来实现（例如元学习和基于智能体的方式）。

将因果关系引入深度学习会对通用人工智能带来切实和持久的贡献，但是利用单一架构来获取所有的认知是否现实？

Bengio 和 Marcus 都认为，双方共识和分歧的表达或许会为人工智能领域带来益处。

辩论首先由双方介绍各自的观点，然后开始根据提出的问题进行自由辩论，最后还有回答现场和网上提问的环节。

Gary Marcus：我没说深度学习没用，但是需要结合符号构建混合系统

由于长期以来对深度学习的批判，Gary Marcus 一直饱受争议。在论点陈述阶段，为了让大家更好地了解自己的真实立场，Marcus 首先回顾了自己近二十多年对于深度学习的观点和态度。这些观点包括：

承认混合模型（符号处理和模式识别都包含在内）的价值；
认识到外推（extrapolation）的重要性及纯深度学习系统的弱点；
认识到组合性（compositionality）的重要性；
认识到捕获和表征关系的重要性；
认识到因果的重要性；
认识到记忆的重要性。

接下来，Gary Marcus 澄清了 Bengio 及其他人关于自己一些观点的误读，如「深度学习无用论」。

我从未说过「深度学习无用」

Gary Marcus 澄清的「深度学习无用论」主要是指最近 Bengio 在接受 IEEE 采访时所提到的内容。Bengio 在采访中曾经说道，「一些人（如 Gary Marcus）表示「看啊，深度学习没用。」但事实上，像我这样的研究者正在做的是扩展深度学习的边界。」

Gary Marcus 在辩论中澄清，「我从未说过深度学习无用，只是说深度学习不是唯一的选择」。

他还表示，自己与 Bengio 的观点分歧其实主要集中在后者早期的（如 2014-2015）的一些观点，比如：1）过度信任黑箱深度网络；2）过度依赖大型数据集；3）过度看中浅层的深度学习系统，对其他方法缺乏兴趣。

其实，随着深度学习缺点的逐渐暴露，Bengio 也已经意识到，单纯依赖深度学习不可能解决所有问题。

Bengio 在今年的 NeurIPS 大会上做了题为《FROM SYSTEM 1 DEEP LEARNING TO SYSTEM 2 DEEP LEARNING》的报告，指出人的认知系统包含两个子系统，一个是直觉系统（System1），主要负责快速、无意识、非语言的认知，这是目前深度学习主要做的事情；另一个是逻辑分析系统（System2），是有意识的、带逻辑、规划、推理以及可以语言表达的系统，这是未来深度学习需要着重考虑的。

所以，现在双方争论的焦点其实已经不是深度学习有没有用，而是往里面添加什么东西来构建一个更智能的混合系统。

深度学习需要加入符号处理

在构建混合系统方面，Gary Marcus 认为，深度学习应该结合符号处理。

符号主义和联结主义的争论由来已久。在深度学习的潜力被挖掘之前，符号主义一直占上风。但随着深度学习的火热，人们对联结主义的追捧似乎也已经过了头。Gary Marcus 认为，深度学习火了那么久，缺陷也暴露无遗，是时候把符号处理加进来了。

但让 Marcus 疑惑的是，Bengio 似乎对符号主义的东西不太感兴趣。他甚至在给学生的一封信中写道：「你提出的是神经符号混合系统，这个系统行不通，几代研究者都做过尝试，而且都失败了。」

对于这种悲观的态度，Marcus 反驳道，「如果要反对符号处理，那你就需要证明你的系统没有用到符号」。在他看来，Bengio 并没有做到这一点。

Marcus 还反驳了 Bengio「人类大脑就是一个神经网络」的观点（下文中会提到）。他认为，现在的人工神经网络过于简单，如每个神经元只有一个自由度，而且同质化严重。

Gary Marcus 认为，「人类大脑就是一个神经网络」这一观点淡化了一个假设，即大脑有可能在算法层面是符号的，在实现层面是神经的。对于「符号在生物层面是不可行的」，Marcus 认为这种观点非常荒谬。他表示，这个问题的焦点不应该在于大脑有没有用到符号，而是在多大程度上利用了符号。

对于这个假设，Gary Marcus 表示，退一步说，即使大脑本质上是一个神经系统，AI 也不应该将符号排除在外。首先，目前还没有正式的证据表明符号无用；其次，符号已经在一些领域发挥了作用，比如谷歌的搜索引擎。谷歌使用的是深度学习+知识图谱的方式进行搜索，而且已经证明比单独使用二者的任何一个效果都要好。

Yoshua Bengio：我比较关心怎么做出 System 2

Bengio 在观点陈述阶段并未花费很多时间正面评价符号主义或 Marcus 的论点，而是具体介绍了深度学习发展中遇到的问题，以及他所认为的一些解决方法。

具体来说，Bengio 更关心的是如何升级深度学习，即 System 2 需要添加哪些东西。

System 2 需要重点关注 OOD，关键是注意力和意识

Bengio 认为：

传统的机器学习都是基于 IID（独立同分布），但 OOD（out of distribution）才是下一步的重要挑战；
注意力机制和意识先验都是 System 2 的关键要素。

Bengio 在 NeurIPS 的报告中也表达了类似的观点，唐杰老师对报告进行了解读。

Bengio 在报告中指出，现实世界中我们感兴趣的数据往往不是 IID 的，而是 OOD（即出现次数非常少），所以我们在处理时应该更加关注 OOD，也就需要在机器学习算法中建立新的数据假设。我们需要考虑哪些因素会影响数据分布的变化，以及不同分布的可组合性等方法如何对现在的 IID 和 OOD 进行泛化。而元学习则是可能实现机器学习到 OOD 和模型快速迁移的一个办法。

而对于构建 System 2 来说，基本的要素包括：注意力和意识。

注意力（Attention）实际在目前的深度学习模型中已经有大量的实现和探讨，比如 GAT（图注意力机制）等；

意识最关键的是定义到怎样的边界。Bengio 提到意识先验可以使用稀疏因子图模型来实现。稀疏因子图可以用来学习变量之间的因果关系，从而构造变量之间的因果关系。

基于规则的传统符号处理有很多问题

对于 Gary Marcus 提到的在下一代深度学习系统中加入符号主义，Bengio 表示，传统的基于规则的符号处理 AI 存在很多问题，包括：

需要高效、协调的大规模学习；
和 System 1 一样需要语义落地（semantic grounding），还需要感知动作循环（perception-action loop）；
需要用于泛化的分布式表征；
像 System 1 一样需要高效搜索；
需要处理不确定性

同时，Bengio 指出，他们要创建的下一代深度学习系统绝不是简单地将好的老式人工智能（Good Old-Fashioned Artificial Intelligence）与深度网络相结合。原因在于：

System2 和 System1 一样需要学习；
高度抽象的概念需要「落地」，通过概率分布表示来实现泛化性；
系统需要表示出不确定性；
暴力搜索算法并不能扩展，而人类似乎是使用潜意识（System 1）处理并引导搜索，包括推理。因此 System1 和 System2 应当是紧密结合的；
我们的大脑都是神经网络；

这些论点无疑反驳了 Marcus 对于在人工智能系统中引入符号计算的观点。之后，双方根据现场观众和在线留言提出的问题进行了解答。包括如何在深度神经网络中引入先验，应当引入什么样的先验知识。所谓的「人工智能的潜意识」指的是什么。最终，辩论以友好但谁也没说服谁的的方式结束。

舆论评价

对于这次辩论，舆论普遍认为：双方普遍软化了彼此的立场，从而淡化了争论中的火药味。然而，关于未来人工智能发展的路线和理论趋势，谁也没有说服谁，更遑论得出一个令人信服的结果了。

Reddit 网友：立场软化、难以信服

Reddit 上的网友对本次辩论的评价说：

「双方并没有真正在辩论，甚至没有冲突。他们都没有站在一个坚定的立场上。在谈到细节上时，双方都以一个安全的立场结束，去同意对方的一些观点。」

另一位「Bengio」评论说：

「本次辩论没有赢家，因为双方都有令人信服的论点。一方面，Bengio 对于人类大脑从生物学处理的噪声顶端意识到符号推理的观点是正确的。而另一方面，Marcus 认为在可学习的智能体中部署硬编码的符号算法可以提升泛化性和样本复杂度。这是到达人类级别人工智能的正确路径。

时间会给我们答案。」

ZDNet：对术语有分歧，似乎在各说各话

科技媒体 ZDNet 也对本次辩论进行了报道，ZDNet 认为双方在术语上有一些理解的分歧。各方从自己的表述中出发提出论点，而某些表述在对方看来有着不同的理解。

以符号为例，Marcus 在辩论中认为，AlphaZero 等类似的 AI 使用的就是符号系统。因为其采用的是蒙特卡洛树搜索，「对于树的追踪和搜索难道不是符号吗？」而 Bengio 则认为这不是符号，「符号必须能够区分概念。」

同样在先验问题上出现了用词的分歧问题。Marcus 批判了 Bengio 想要让神经网络抛弃先验的想法，而 Bengio 则辩护说，自己只是想让先验更少一点，最好是元先验（meta-prior），对此 Marcus 认为这和自己希望给 AI 加入先验没什么不同，只是多少的区别。

当然，Marcus 也改变了一些观点。例如，他谈到说不能将神经网络和人脑的神经系统类比，因为大脑神经元之间有很多可以被塑造的「软连接」。Bengio 很快驳斥说，神经网络中的门「Gate」控制就是这样一种软性的连接。Marcus 随即表示同意，终结了这个问题的讨论。

ZDNet 文章总结说，本次辩论的双方都是从各自的立场出发，介绍了自己的一些想法。Marcus 谈到的是人工智能应当是什么样子的，并以人类的认知方式为例，认为人工智能应当效仿人类的认知方式达到真正的智能。而 Bengio 则更多从实际出发，介绍现有的实验和工作，讲明以我们现在的技术，如何才能让当前的 AI 系统克服缺点。

总而言之，本次辩论无疑对符号主义和联结主义之间的争论进行了一次系统性的梳理和总结，更像是一次意见的交换。尽管大佬们的争论并没有达成最终的共识，但是我们可以了解到：人工智能并非只有深度学习一家，对于达成类人人工智能的路径也可能极为不同。深度学习并非最终道路，而先驱们已然孜孜探索。

以下是完整版视频：

辩论从1小时40分钟左右开始，请拖行进度条观看。

官方视频链接：https://www.facebook.com/MontrealAI/videos/498403850881660/

参考链接：

https://www.jiqizhixin.com/articles/2019-12-16-4?from=synced&keyword=ood

https://www.zdnet.com/article/devils-in-the-details-in-bengio-marcus-ai-debate/

理论深度学习Yoshua BengioGary Marcus元学习注意力机制符号主义联结主义

相关数据

唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名，该系统于2006年3月推出，目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

来源：个人页面 Wikipedia

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋，也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现，其研究曾经两次登上 Nature。2018 年 12 月，AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中，AlphaZero 不仅征服了围棋，也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

来源：机器之心

因果推理技术

基于因果关系的一类推理方法，是一种常见推理模式，涉及观察到的共同效应的原因的概率依赖性。

来源：Intercausal reasoning with uninstantiated ancestor nodes

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

神经科学技术

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

概率分布技术

概率分布（probability distribution）或简称分布，是概率论的一个概念。广义地，它指称随机变量的概率性质－－当我们说概率空间中的两个随机变量具有同样的分布（或同分布）时，我们是无法用概率来区别它们的。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

联结主义技术

联结主义是统合了认知心理学、人工智能和心理哲学领域的一种理论。联结主义建立了心理或行为现象模型的显现模型—单纯元件的互相连结网络。联结主义有许多不同的形式，但最常见的形式利用了神经网络模型。

来源：维基百科

元学习技术

元学习是机器学习的一个子领域，是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是，我们如果想使智能体掌握多种技能、适应多种环境，则不应该从头开始在每一个环境中训练每一项技能，而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务，因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法，又叫元学习（meta-learning），是通往可持续学习多项新任务的多面智能体的必经之路。

来源：机器之心

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

先验知识技术

先验（apriori ；也译作先天）在拉丁文中指“来自先前的东西”，或稍稍引申指“在经验之前”。近代西方传统中，认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验，比如，数学式子2+2=4；恒真命题“所有的单身汉一定没有结婚”；以及来自纯粹理性的推断“本体论证明”

来源：维基百科

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

独立同分布技术

在概率论与统计学中，独立同分布（缩写为IID）是指一组随机变量中每个变量的概率分布都相同，且这些随机变量互相独立。一组随机变量独立同分布并不意味着它们的样本空间中每个事件发生概率都相同。例如，投掷非均匀骰子得到的结果序列是独立同分布的，但掷出每个面朝上的概率并不相同。

来源：维基百科

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

通用人工智能技术

通用人工智能（AGI）是具有一般人类智慧，可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标，也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机器具有执行通用智能行为（general intelligent action）的能力。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知能力。

来源：wikipedia