一个普通的深度学习模型动不动就需要十万、百万级的数据,但即使投喂了这么多数据,一个自动驾驶系统也很容易被一张贴纸攻破……2019 年,我们看到深度学习受到越来越多的质疑,Gary Marcus 等批评者甚至认为,「深度学习不起作用」。在如此强烈的质疑声中,深度学习将何去何从?2018 图灵奖获得者之一 Yoshua Bengio 在 IEEE 的访谈中表达了他对深度学习未来发展的看法。
他认为,AI 系统应该具备推理、规划和想象的能力,因果推断、注意力、元学习、掌握物理规律对于未来深度学习的发展都非常重要。此外,对于Gary Marcus 的质疑,Bengio 回应道,「我关注的是解决问题需要探索什么,而不是谁对谁错」。
Yoshua Bengio 是深度学习「三剑客」之一,深度学习正是如今人工智能领域的主流。
Bengio 在蒙特利尔大学担任教授,他在神经网络的应用方面做出了巨大贡献,同样重要的是,他还在神经网络无人问津的漫长 AI 寒冬(1980 年代末及 1990 年代)中坚持神经网络研究工作。
为此,他与另外两位「剑客」——Geoffrey Hinton 和 Yann LeCun 荣获 2018 年图灵奖,该奖项被誉为「计算机界的诺贝尔奖」。
今天,人们对于深度学习缺陷的讨论越来越多。IEEE Spectrum 与 Bengio 就深度学习领域该走向何方进行了对谈,Bengio 在 NeurIPS 2019 大会上也作了类似主题的报告《From System 1 Deep Learning to System 2 Deep Learning》。
报告地址:https://nips.cc/Conferences/2019/Schedule?showEvent=15488
深度学习及其缺陷
关于对深度学习局限性的讨论,您有什么看法?
Yoshua Bengio:很多面向公众的会议不了解 AI 等学科的科研方式:我们尽力去了解目前已有理论和方法的局限性,进而扩展我们的智力工具所能到达之范畴。因此,深度学习研究者正在寻找那些运转未达预期之处,这样我们就可以知道需要添加什么、探索什么了。
一些人(如 Gary Marcus)借用这一现象表达「看啊,深度学习没用。」但事实上,像我这样的研究者正在做的是扩展深度学习的边界。当我谈到「AI 系统需要理解因果关系」时,我并不认为它会取代深度学习。我只是尝试向工具箱里多添加一些东西。
作为科学家,我关注的是解决问题需要探索什么,而不是谁对谁错。
您如何评价深度学习的现状?
Yoshua Bengio:根据近二十年的进展,我认为人工智能的水平远远落后于两岁小孩,有些算法的感知水平相当于低等动物。就允许实体探索周遭环境的工具方面,我们正在逐渐前进。
现在最大的争论之一是:哪些元素构成更高级的认知?因果关系是其中之一,推理和规划、想象以及信用分配(credit assignment)都是。在经典 AI 中,研究者尝试利用逻辑和符号获取这些元素。有些人认为经典 AI 可以实现这一目标,或者至少有一些进展。
也有一些人,比如我,认为我们应该利用近年构建的工具创建类似于人类推理方式的功能,这实际上与基于搜索的纯逻辑系统相去甚远。
脑启发计算时代的到来
如何创建类似于人类推理的功能?
Yoshua Bengio:注意力机制将计算聚焦于某些元素,一组计算。人类就是这样的,这是意识处理(conscious processing)的重要部分。当你意识到某事时,你会着重某些元素,或者某个想法,然后再转到另一个想法上。这与标准的神经网络差别很大,后者是大规模并行处理。注意力机制帮助我们在计算机视觉、翻译和记忆方面实现巨大进步,但是我认为这只是另一种风格的脑启发计算的开端。
这并不表示我们解决了问题,我认为我们具备了足够多的工具可以开始解决问题了。这并不表示会很容易。2017 年我写了一篇论文《The Consciousness Prior》来解释这一问题。我的几个学生正在研究这一主题,我认为这将是一项长期工程。
还有哪些人类智能的其他方面是您想在 AI 中复制的吗?
Yoshua Bengio:这就要谈到神经网络的想象能力了:推理、记忆和想象是人脑思维的三个方面。当你回忆过去或者畅想未来时,你就是在推理。如果你预测未来会发生一些不好的事情,你会作出一些改变,这就是规划过程。这一过程也涉及记忆,因为你需要回顾已知的事实进而做出判断。你从现在和过去中选出相关联的事实。
注意力是其中的关键模块。比如我正在翻译一本书。在翻译每一个单词时,我都要仔细查看书中的一小部分内容。注意力允许你远离大量无关细节,专注于相关的内容。选择相关元素,这就是注意力所做的事情。
那么对机器学习而言,这对应怎样的过程呢?
Yoshua Bengio:你不用告诉神经网络需要注意什么,这就是它的神奇之处。神经网络能够自学,学习应对一组可能元素中的每一个元素赋予多少注意力或权重。
学习如何学习
您最近关于因果关系的研究与此有何关联?
Yoshua Bengio:推理所使用的高级概念很可能是因果变量。你不会基于像素推理,而是基于「门」、「门把手」、「开」、「关」这样的概念进行推理。因果关系对于机器学习的未来发展非常重要。
这与深度学习中更关注人类思维的另一个主题相关。系统泛化(systematic generalization)是人类泛化已知概念的能力,这样才能以从未见过的新方式连接这些概念。目前,机器学习无法做到这一点。因此你常常遇到与在特定数据集上训练模型有关的问题。假如你在一个国家中训练,然后到另一个国家部署,你需要泛化和迁移学习。如何训练神经网络,使其迁移至新环境后能够继续良好运转或者快速适应呢?
获取这种适应性的关键是什么?
Yoshua Bengio:元学习是现在很热的一个话题,元学习即学习如何学习。1991 年我就该主题写过一篇论文《Learning a synaptic learning rule》,但直到最近我们才有足够的算力来实现它。元学习的计算成本很高。其思路是:要想泛化至新环境,你必须练习对新环境的泛化。看起来很简单,连孩童都一直在做这件事。小孩从一个房间到另一个房间时,环境不是静止的,而是变化的。此时,小孩训练自己来快速适应环境。为了高效训练,他们利用过去获得的知识碎片。我们正在理解这项能力,并构建工具来复制它。
对深度学习的一个批评是:需要海量数据。如果你只为一项任务训练模型的话,那么这话属实。但是小孩都可以基于非常少的数据学习,他们利用之前学到的东西。但更重要的是,他们利用适应和泛化的能力。
「这些想法还不能用于工业」
这些想法会很快应用于现实世界吗?
Yoshua Bengio:不会。这些都是很基础的研究问题。我们仍处于研究阶段。我们可以对这些想法进行 debug,转移到新的假设,但它们无法在短时间内用于工业界。
不过,对于工业界关心的两个实际问题,这项研究或许可以提供帮助。一个问题是构建能够适应环境变化的稳健系统。另一个问题是:如何构建自然语言处理系统、对话系统和虚拟助手?当前最优的深度学习系统存在的问题是:基于海量数据训练得到,但无法真正理解所处理的语言。Gary Marcus 等人借此表示:「这可以证明深度学习无用。」而像我这样的人会反驳:「有意思,我们来解决这个难题吧。」
物理、语言和常识
聊天机器人如何才能变得更好?
Yoshua Bengio:最近,grounded language learning 吸引了大家的注意力。其想法是:AI 系统不应仅从文本中学习,还应该学习世界的运转方式以及如何用语言描述世界。问问自己:如果一个孩子只通过文本与世界交互,那他能够理解世界吗?我认为很难。
这就涉及意识和无意识知识了,后者即我们知道但无法命名的东西。直观物理即是一例。两岁的小孩能够理解直观物理,即使他们不知道牛顿定理,也能理解重力等概念。现在很多人尝试构建可与世界交互并发现物理学基本规律的系统。
为什么对物理学的基本把握有助于对话?
Yoshua Bengio:语言的问题通常在于系统无法真正理解单词所指的复杂性。以 Winograd Schema 挑战赛中的句子为例,要想理解它们,你必须捕捉物理知识。有很多句子类似于「Jim wanted to put the lamp into his luggage, but it was too large.」(吉姆想把台灯放进行李箱,但台灯太大了。)你知道如果物体太大无法放进行李箱,那么第二个小句的主语「it」一定指的是这个物体(而不是行李箱)。你可以通过单词沟通这类知识,但这与「The typical size of a piece of luggage is x by x.」无关。
我们需要能够理解世界的语言理解系统。目前,AI 研究者正在寻找捷径,但是还不够。AI 系统还需要掌握世界如何运转的模型。