Gary Marcus：在人工智能上取得成功的「叛逆者」

Gary Marcus 为机器之心「2017 全球机器智能峰会」的重要演讲嘉宾。

演讲时间：5 月 27 日，14:50-15:10
演讲主题：Control Intelligence and Machine Intelligence

近年来，在计算机计算能力的指数级突破和数据量飞涨这两大因素的推动下，深度学习带来了人工智能的又一波浪潮。图像识别、语音识别、视频理解、自然语言理解、博弈、预测分析、内容生成…… 深度学习不断地在不同的应用领域创造着惊喜。

2016 年 3 月份 AlphaGo 的一场人机大战，彻底将深度学习的浪潮推向了巅峰。似乎一夜之间，人工智能、深度学习成了人人都在关注的关键词——工程师探讨新应用、企业家在寻找新商机、政府和社会学家在思考新的社会问题，其它领域的科学家也开始将其用作辅助研究的手段。
但备受追捧的背后，还有一种声音让我们警惕深度学习的过度炒作。
这一波深度学习引发的人工智能浪潮中，Gary Marcus 就是这样一个「叛逆者（contrarian）」。2016 年在 Edge 的一次视频专访中，他曾表示自己觉得人工智能正走在错误的方向上。他不确定深度学习、大数据否能让我们靠近人工智能中更加深层的问题，比如如何理解语言，或是怎么推理这个世界？
不管是发表作品、评论，还是公开露面宣讲，Marcus 都以一个严厉的深度学习批评者身份亮相。
他在神经认知科学领域的坚持，是深度学习火热的今天发展人工智能的不同方向。正如瑞士人工智能公司 Demiurge Technologies 联合创始人 Bragi Lovetrue 告诉机器之心的那样，「在纽约大学，Yann LuCun 等学者将深度学习带上巅峰的同时，Gary Marcus、Brenden Lake、Ned Block 等学者已为后深度学习时代的人工智能打下了坚实的地基。期待后深度学习时代的人工智能从大脑、意识和婴儿研究中汲取灵感，创造新的算法与架构满足深度学习所释放的对人工智能的广泛需求。」

Marcus 与深度学习

1956 年，美国达特茅斯大学的一次会议推动了全球第一次人工智能浪潮的出现，也就是 1956 年到 1974 年。当时，在算法方面出现了很多世界级的发明，其中包括贝尔曼公式以及感知器。感知器作为首个可训练的神经网络，由康奈尔大学的心理学家 Frank Rosenblatt 于 1957 年提出的。
但后来，Minsky 和 Papert 发表了一部名为《Perceptrons》的著作，证明在感知器上执行一定量的常见计算会非常耗时间，不切实际。不久之后，人工智能就迎来了第一波寒冬。
在这期间（1970 年），Gary Marcus 出生在美国马里兰州巴尔的摩。在高中时期，他读了认知科学家 Douglas Hofstadter 和哲学家 Daniel Dennett 合编的关于意识的文集《 The Mind’I》，同时也读了 Douglas Hofstadte 关于机器和心灵的著作《哥德尔、艾舍尔、巴赫》，从此他开始对「心智」变得着迷。
在接受 MIT TR 记者 Will Knight 的专访时，他谈到自己写过的一个可以将拉丁语翻译成英语的程序。Marcus 表示，这项工作的困难让他意识到，如果我们要在机器中重新创造智能，就必须更加理解那些隐藏于人类思维中的运作现象。
进入 20 世纪 80 年代，人工智能迎来第二波发展的浪潮。80 年代中期是一个有趣的时期，那时的人工智能分化为两个阵营，一方希望通过复制大脑的基本生物状态来创造智能机器，另一方的目标则是用传统计算机和软件来模拟更高级的认知功能。
在这个时期，人工智能领域产生了新的变化。一些心理学家想出了一个方法，认为可以完全颠覆人工智能。这一方法与神经网络有关，也就是现在耳熟能详的深度学习的前身。
1944 年，两位来自芝加哥大学的研究人员 Warren McCullough 和 Walter Pitts 首次提出了神经网络，他们描述的神经网络有阈值和权重，但并不是按层的方式排列的，而且当时研究人员也没详细说明任何训练机制。
McCullough 和 Pitts 展现的是神经网络能够在理论上计算任何数字化计算机能够计算的函数。结果更偏向于神经科学，而非计算机科学。
同一时期，加拿大心理学家 Donald Hebb 也提出了关于大脑中神经元如何学习识别一个输入的理论。他的研究表明，重复的神经元放电可能会加强它们之间的联系，从而提高遇到同样输入时再次放电的可能性。一些研究者采用类似的设计思路建造了计算机。
但是，这种所谓的神经网络效能很低（例如前面提到的感知器）。直到 1986 年，一组研究者发现了提高神经网络学习能力的方法，其中包括著名的多层神经网络（1986）和 BP 反向传播算法（1986）等。这些研究者还展示了神经网络可以用来完成许多不同的事情，从视觉数据中的模式识别到学习英语动词的过去时态。只要有足够的数据样本用于训练，这些网络就能形成执行某些任务所需要的连接。
这些研究者把他们的方法称为「联结主义（connectionism）」，并声称只要有足够大的神经网络，就能重现智能。
在联结主义兴起之时，Marcus 正在决定自己要去哪里读研究生。他参加了著名认知科学家、时任 MIT 教授的 Steven Pinker 的讲座。Pinker 讲到了儿童学习和使用动词的方式。他认为，与纯粹联结主义者的预期不同，儿童学习动词过去时态的时候，似乎并不是纯粹记住一些例子再推而广之的过程。Pinker 展示的证据表明儿童在学习过程中很快就能察觉出语言规则并加以概括推广。他和其他人都相信，从本质上说，进化塑造了人脑中的神经网络，为更加复杂的智能提供了必要工具。
Marcus 在研究生期间收集了更多证据，来支持 Pinker 关于学习的理论，并形成了自己的理念。他率先将大量认知研究数据电子化，研究了几千份儿童语音的录音资料来寻找他们的错误，例如将「broke」和「went」误说为「breaked」和「goed」。这似乎证实了儿童掌握语法规则后会将其运用在新词上，并通过死记硬背来学习那些不符合规则的例外情况。
基于该项研究，Marcus 开始质疑联结主义者们认为智能会从大型神经网络中自动涌现的想法，他开始将注意力集中在深度学习的局限性上。
在 21 世纪的第一个十年里，神经网络再次衰落。
「1989 年，我毕业的时候，所有人都在喋喋不休地讨论神经网络。然后这些人消失了。专家体系也存在这种现象。兴趣像潮水一样涌来，然后又无影无踪。我们这个领域的人最担心的就是这种现象会不会再次发生。现在的人们为什么对神经网络有如此高的兴趣，这种热情能够保持下去吗?」。这一年（19 岁），Marcus 加入了 Pinker 在 MIT 的实验室。

人工智能的「叛逆者」

Gary Marcus 的 TED 演讲

「叛逆」并不是一个纯粹的贬义词，也不能算是褒义词，但如果使用得当，它倒有点坚持正确并孤身逆势而为的意味。在今天的深度学习热潮中，Gary Marcus 将自己看作一个「叛逆者」。
「毫无疑问我的观点有些叛逆。我的看法是人们对那些仅代表了一小部分我们实际需要实现的东西很有热情。」在 Technical.ly Brooklyn 的一次采访中他这样说到，「我认为机器在这些事情上没有取得进展。它们确实已经在语音识别这些任务上有进展，但这不是语言理解，只是转录而已。」
就像前面介绍的，近些年来基于深度学习的人工智能采用的是一种并不算新鲜的形式——人工神经网络。这种网络是由许多（有时是几百万个）独立的单元组成的，它们叫做神经元（neuron）。每个神经元都会把多个数字输入转化成一个数字输出，然后再把它传递给另一个或很多个其它神经元。就像在大脑中一样，这些神经元被分成很多「层（layer）」——一些可以获取下层的输入数据并把它们的输出传递给上层的神经元团。神经网络通过输入的数据不断调整其连接的方式来进行学习，直到网络计算出与已知输出（一般由很多子类组成）尽可能接近的输出为止。
但这样的网络有一个缺点：需要大量乃至巨量的数据。比如说，微软和谷歌都已经开发出了超人级的图像识别算法——其在标准数据集的识别上已经超过了人类的平均水平，可以识别数千种不同的物体，从清真寺到蚊子等等。但是为了达到足够击败人类的性能表现，这些算法需要数以百万计的有标注的数据。而对于人类，一个小孩仅需要少量甚至只需一个样本就能学会识别一种新物体。
在评价当前深度学习主导的人工智能现状时，Marcus 毫不客气——他甚至并不认为深度学习是「智能的」。他在 2012 年发表于《纽约客》的一篇反响很大的专栏文章《「深度学习」是人工智能领域的一次革命吗？（IS 「DEEP LEARNING」A REVOLUTION IN ARTIFICIAL INTELLIGENCE?）》的结尾处说：「Hinton 造出了一架更好的梯子；但一架更好的梯子并不能帮你登上月球。」
「容易取得的成果比我预想的多一些。我看到别人给出过更简洁的说法：深度学习不是 AGI（通用人工智能）。你确实可以使用深度学习做很多事情，比如做更好的语音识别，做更好的目标识别。但那并不意味着就是智能。智能是一种多维度的变量，里面存在很多东西。」他在 TechCunch 对他的一次采访中说道，「现在是感知（perception），只是整体的一小部分。这确实是很重要的一部分，但人类智能里面还有更多的元素，比如我们关注合适的事物的能力、推理和建模当前发生的事情，进而预测未来可能发生的事情等等。而感知只是其中的一部分。深度学习也只是有助于这一部分。」

智能有很多组成元素，感知只是其中一部分，另外还有语言、推理、类推、规划和常识；图片来自 Gary Marcus 的 TEDxCERN 演讲

Gary Marcus 相信，要想实现真正的人工智能，光有深度学习是远远不够的，我们还需要更多方向。

认知科学与人工智能

既然光靠深度学习不能实现我们心中的通用人工智能，那么我们应该怎么做呢？Gary Marcus 认为，为了推动实现通用人工智能的宏伟目标，我们应该「更加认真地对待认知科学，尤其是发展心理学和发展认知科学。」
认知科学是 20 世纪世界科学标志性的新兴研究门类，探究人脑或心智工作机制，研究的领域包括：语言习得、阅读、话语、心理模型小概念和归纳、问题解决和认知技艺获得、视觉的计算、视觉注意等等。

认知科学的六角星

经过半个世界的发展，认知科学已经不像初期那样「聊聊心智是什么」了。到了本世纪，国际认知科学学会会士 8 位哲学家之一的保罗 · 萨伽德在《心智》一书中，以一种统一的视角，将心理学、人工智能、神经科学、语言学、哲学、和人类学探索认知的进路统统归为对心理表征和心理程序的处理。
从 1956 年美国达特茅斯学院的那一场讨论会开始，人工智能的发展起起伏伏。几经波折后的人工智能领域，除了少数人在坚持传统外，主流人工智能界也开始转向针对特殊问题的的设计求解。人工智能先驱 Marvin Lee Minsky 就曾表示过，「人工智能的研究从 70 年代开始已经『脑死亡』了。」
到了 21 世纪，以「通用性」为目标的通用人工智能开始再次复兴。2005 年，通用人工智能领域的代表人物马库斯 · 胡特第一次给出了真正能适应各种不同环境的通用智能主题的数学模型 AIXI，它只有一个公式：

而在最近，DeepMind 深度学习结合强化学习玩 Atari 游戏的方式也显示了一定的通用性。DeepMind 也一直在对外宣称自己有着「建立通用人工智能」的目标。
整体上看，DeepMind 的研究解决了人工智能领域里一些重要的问题，比如自然语言理解、感知处理、通用学习和用于评估人工智能的策略。虽然特定的模型已经证明了在有限领域内的认知能力，但目前它们还无法代表一种统一的智能模型。
为了实现自己的通用人工智能目标，Gary Marcus 建立了一家致力于让人工智能系统和代理通过使用很少的数据就能进行有效学习的创业公司 Geometric Intelligence。他认为，「认知科学与神经科学交汇衍催生的新想法将对未来的人工智能研究至关重要。」除了 Marcus，创始成员还包括剑桥机器学习教授 Zoubin Ghahramani、中佛罗里达大学计算机科学教授 Kenneth Stanley 和纽约大学神经语言学博士 Douglas Bemis。

在 MIT 科技评论的 EmTech Digital 的一次演讲中，Gary Marcus 曾表示 Geometric Intelligence 的目标包含两个方面：

通过创新的、正在申请专利的可从更少数据中更高效地学习的技术来重新定义机器学习的边界
在一个更稳固的框架中逼近规则和控制的力量，整合机器学习的当代进步，同时在它们之上进行延展

为了实现这样的目标，他们从人类认知心理学（human cognitive psychology）上获得了一些灵感。去年，Geometric Intelligence 宣布成功开发出了一种可以使用更少的数据进行更快的机器学习的算法 XProp。
据介绍，相比于目前最为流行的深度学习方法，这种方法所需的样本数量可以少得多。

XProp 和某种没有具体指明的卷积神经网络方法的一个比较——在样本量相同时 XProp 的街景门牌号（SVHN）分类误差低于卷积方法。

Geometric Intelligence 没有披露有关 XProp 工作方式的更多细节，而现在这个算法应该已经落到了 Uber 手里。
去年 12 月，Uber 以未披露的价格收购了这家公司，随即便以该公司的员工为核心组建了自己的人工智能研发团队 Uber AI Labs；Gary Marcus 也随之加入并担任该实验室的主管。不过那之后仅仅过了四个月，Marcus 就离开了 Uber。

畅销书作家

除了思想家、科学家、创业者和企业家的身份，Gary Marcus 还是一位畅销书作家和专栏作者，他发表过的专著包括《Guitar Zero: The New Musician and the Science of Learning》、《Kluge: The haphazard construction of the human mind》、《The Norton Psychology Reader》、《The Birth of The Mind: How a Tiny Number of Genes Creates the Complexities of Human Thought》和《The Algebraic Mind: Integrating Connectionism and Cognitive Science》。

其中 2012 年的作品《Guitar Zero: The New Musician and the Science of Learning》讲述了他在近 40 岁「高龄」时学弹吉他的故事，通过这段经历，他研究了人在不同年龄是如何掌握新技能的。
在本书中，Marcus 提出了这样的疑问：几乎每个人都可以听音乐，但是不是每个人都能演奏音乐呢？演奏音乐是一种与生俱来的能力吗？还是所有人都可以习得？如果六岁的时候没有开始学钢琴，现在还来得及吗？过了学习的黄金时代（一般认为是成年以前），我们还有机会重塑自我吗？
为了解答这些问题，当时已经年近 40 岁的 Gary Marcus 决定拿自己来试验一下——这位之前没有表现出任何音乐才能的科学家决定开始学习吉他。在这个过程中，Marcus 对人类的心智可塑性和学习能力进行了探索。通过对吉他专家的调研，Marcus 研究了如何学习一门乐器的最有效方式——怎样进行刻意且有效的训练？怎么找到最好的音乐老师？天才真的存在，还是只要努力就能成功？
Guitar Zero 展示了一种音乐的科学，揭示了音乐直觉等等常见的谬误。在此之上，Marcus 又提出了一个对人类来说非常基本的问题：人生中最重要的是什么？人生旅程本身就能让大脑满足了吗？如果你对音乐、学习和丰富多彩的人生感兴趣，不妨读读这本书。
而在另一本书《Kluge: The haphazard construction of the human mind》中，Marcus 对人类心智的构建方式进行了探索。
为什么我们可以认出高中毕业照上的同学却不记得昨天早餐吃了什么？为什么当广告写道「每位顾客限购 12 只」时，我们往往倾向于比广告写「每位顾客限购 4 只」时买得更多，尽管价格一样？在这本书中，Gary Marcus 令人信服地说明了人类大脑并不如我们想象的那么优雅完美，而更像是随便拼凑起来的。Gary Marcus 认为，人类的进化是阶段性的。在新的模块还在组建的时候，我们依然需要旧的模块继续工作，让大脑维持运转。一边构造一边使用就会导致各种偷懒、草率、抄近道。就好像大脑是一个混乱失调的车间，年轻的工人（前脑）处理语言等新技能的同时，老保安（中脑和后脑）则在管理着系统记忆和地下室的保险丝。由此造成的不良后果包括：抑郁、疯狂、不可靠的记忆、偏见。
Gary Marcus 的书总能为我们带来关于人类心智的新思考，他的文章、演讲、评论和研究也在不断帮助人们更好地了解智能、心智和我们自身存在的本质，并为人工智能的发展提供不一样的见解和方向。