过去
长期以来,许多研究人员一直担心神经网络能否有效地泛化,从而捕获语言的丰富性。从 20 世纪 90 年代开始,这成为我工作的一个主要课题,在我之前,Fodor、Pylyshyn、Pinker 和 Prince 1988 年在《Cognition》中提出了与之密切相关的观点。Brenden Lake 和他的合作者在今年早些时候也提出了类似的观点。
举个例子,我在一月份写了一篇关于这个话题的文章:
当可用的培训数据数量有限,或测试集与培训集有很大区别,又或者样本空间非常大且有很多全新数据时,深度学习系统的性能就不那么好了。而在现实世界的诸多约束下,有些问题根本不能被看作是分类问题。例如,开放式的自然语言理解不应该被认为是不同的大型有限句子集之间的分类器映射,而是可能无限范围的输入句子和同等规模的含义之间的映射,而这其中很多样本是之前没有遇到过的。
现在
近日,Yoshua Bengio 和他的实验室成员写了一篇与此相关的论文(http://export.arxiv.org/abs/1810.08272),证明了神经网络社区内部(认知科学研究社区的一群门外汉(包括我自己))长期以来的观点:如今的深度学习技术并不能真正处理语言的复杂性。
这篇论文的摘要中有一句这样的表述:
我们提出了强有力的证据,证明了当前的深度学习方法在学习一门合成性(compositional)语言时,样本效率存在不足。
这是当前机器学习文献中存在的一个非常普遍而且十分重要的问题,但之前的文献对此没有任何讨论。这并不是好现象:我们曾经用一个词来形容它——「非学术性」,意思是你按照早期先行者的方向继续研究下去,并假装你的工作是原创的。这并不是一个很好的词。但它在这里很适用。
无论如何,我很高兴 Bengio 实验室和我长期以来对此的观点一致,我在一篇 Twitter 中写道:
关于深度学习及其局限性的重要新闻:Yoshua Bengio 的实验室证实了 Marcus 在 2001 年和 2018 年提出的一个关键结论:深度学习在数据处理方面不够有效,无法应对语言的合成性本质。
和往常一样,我的言论引起了深度学习社区中许多人的反感。作为回应,Bengio 写道(他第二天在 Facebook 上发布了一条帖子,这引起了我的注意):
这里的结论似乎有些混乱。根据实验,我们发现目前的深度学习+强化学习在学习理解合成语言的样本复杂度方面还不尽如人意。但这与 Gary 的结论大不相同,因为我们相信我们可以继续取得进步,并在现有的深度学习和强化学习的基础上进行扩展。Gary 明确地表明了「深度学习在数据处理方面不够有效,无法应对语言的合成性本质」这样的负面观点,而我们认为当前的深度学习技术可以被增强,从而更好地应对合成性,这是我们进行(向具有相同底层因果机制的新数据分布)系统泛化所必需的。这正是我们正在进行的研究,相关的论述可以在 arXiv 上查看我们之前的论文。
实际上,Bengio 说的是我们还没有达到所需要的水平。
也许是这样,也许不是。或许深度学习本身永远无法做到真正处理语言的复杂性。我们至少要考虑到存在这种可能。
20 年前,我基于反向传播的工作原理非常严谨地首次提出该观点(http://www.psych.nyu.edu/gary/marcusArticles/marcus%201998%20cogpsych.pdf)。然后立即出现了很多关于未知机制和未来的成功的承诺。
这些承诺至今仍未兑现。我们用了 20 年的时间以及数十亿美元进行研究后,深度学习在语言的合成性方面仍然没有取得任何显著进展。
在过去 20 年里唯一真正改变的是:神经网络社区终于开始注意到这个问题。
未来
实际上 Bengio 和我在很多方面都有共识。我们都认为现有的模型不会成功。我们都同意深度学习必须要被增强。
真正的问题是,增强究竟是什么意思。
Bengio 可以自由地阐述他的观点。
在我看来,正如我过去 20 年所预测的那样:深度学习必须通过一些借鉴自经典符号系统的操作得到增强,也就是说我们需要充分利用了经典人工智能技术(允许显式地表示层次结构和抽象规则)的混合模型,并将其同深度学习的优势相结合。
许多(并非所有)神经网络的支持者试图避免在他们的网络中添加这样的东西。这并不是不可能的;这是所谓的正统观念的问题。当然,仅靠深度学习目前还无法解决这个问题。也许是时候试试别的方法了。
我不认为深度学习无法在自然理解中发挥作用,只是深度学习本身并不能成功。我认为 Yann LeCun 等人一直在误导大家。
我的预测仍然是:如果没有固有的合成工具来表示规则和结构化表征(根据我在 2001 年出版的「The Algebraic Mind」一书中提出的观点),我们将看不到语言理解神经网络模型的进展。
只要深度学习社区不再毫无必要地把自己定义为经典人工智能(符号系统)的对立面,我们也许将看到进展。
原文链接:https://medium.com/@GaryMarcus/bengio-v-marcus-and-the-past-present-and-future-of-neural-network-models-of-language-b4f795ff352b