LSTM 之父 Jürgen Schmidhuber 再次掀起争论,这回他指向了深度学习之父、图灵奖得主 Geoffrey Hinton。不过,这次他站出来质疑的是 Hinton 的最新奖项——本田奖。
创立于 1980 年的本田奖旨在表彰「为引领生态技术领域的下一代新知识而做出贡献的个人或团体」。2019 年,Geoffrey Hinton 获得本田奖,获奖理由是「为将人工智能(AI)广泛应用于多个领域所做的先驱性研究以及实用化推进」。然而,昨日计算机科学家 Jürgen Schmidhuber 发文批判这一事件,认为 Hinton 不应该获得该奖项。他表示「不要把发明者弄错人了」,并直呼「奖项并不能改变事实」。Jürgen Schmidhuber 在推特上表示:「不要弄错新技术的发明者。至少在科学领域中,真相终将显现。真相没有显现,只能说明时候未到。奖项无法改变事实。」Jürgen:六大理由,Hinton 不应该获本田奖
Jürgen 首先承认,Hinton 的确在人工神经网络和深度学习领域做出了突出的贡献。但是,本田奖却将 Hinton 未引用的其他研究者的基础性发明归功于他。科学不允许企业 PR 来扭曲科研学术记录。有理有据!Jürgen 在正文中一一列举了他认为 Hinton 不应获得本田奖的 6 大理由。本田奖在公告中表示:Hinton 发明了很多方法并由此推动了人工智能的更广泛应用,其中就包括奠定了人工智能深度学习方法基础的反向传播算法。Jürgen 则认为,现代反向传播是由 Linnainmaa 在 1970 年首先提出来的,之后 Rumelhart、Hinton 和 Williams 才在 1985 年提出,并且 Hinton 只是第二作者。此外,Ivakhnenko 的深度前馈网络(1965)早在 Hinton(1980 年代)之前就能够学习内部表征了,而且 Hinton 提出的网络深度不如前者。理由 2:Hinton 的无监督预训练并没有促成当前的深度学习革命本田奖在公告中表示:Hinton 在 2002 年发明了一种用于有限玻尔兹曼机的快速学习算法,使得它们无需任何标注数据即可学习到单层分布式表征。这些方法使深度学习有了更好的性能表现,并促成了当前的深度学习革命。Jürgen 则表示,他早在 1991 年就提出了用于深度神经网络的无监督预训练,而 Hinton 在 21 世纪初提出的类似无监督预训练只是一种概念上的「旧方法重用」罢了。并且,这也与 2010 年之后出现的深度学习革命毫不相干。相反,深度学习革命的出现主要基于监督学习,而 Jürgen 在 IDSIA 研究所的团队曾分别于 1991-95 和 2006-11 两个阶段开展了由无监督预训练转向纯监督学习的研究。理由 3:Hinton 的多层神经网络并未极大地改善语音识别效果,CTC-LSTM 才有用本田奖在公告中表示:2009 年,Hinton 和他的两个学生提出使用多层神经网络在语音识别领域取得重大突破,由此极大地提升了语音识别的效果。Jürgen 表示,首个表现良好的端到端神经语音识别基于他所在 IDSIA 研究所提出的两种方法,即 LSTM(20 世纪 90 年代-2005 年)和 CTC(2006 年)。但是,Hinton 等人在 2012 年仍然使用 20 世纪八九十年的老旧混合方法,其性能表现无法与革命性的 CTC-LSTM 同日而语。理由 4:Hinton 并非最早将深度学习应用于计算机视觉的人本田奖在公告中表示:2012 年,Hinton 与他的两名学生证明了深度学习在图像目标识别领域远远优于当时的 SOTA 方法,进而促使计算机视觉领域出现革命性进展。自从 2011 年以来,深度学习在计算机视觉领域的统治地位不言而喻,据我们所知,这一地位的确立与 Hinton 学生 Alex Krizhevsky 在 2012 年提出的深度卷积神经网络模型 AlexNet 密不可分。但 Jürgen 指出,他在 IDSIA 的团队比 Hinton 更早地将深度学习技术应用于计算机视觉领域。2010 年,IDSIA 团队提出,通过简单的反向传播,GPU 可用于训练深度标准有监督神经网络模型,相比 CPU 实现了 50 倍的加速,打破了长期以来的 MNIST 基准记录。2011 年,IDSIA 团队将这种方法扩展到了卷积神经网络(CNN)上,相比基于 CPU 的 CNN,基于 GPU 的 CNN 训练速度实现了 60 倍加速。
而后,IDSIA 团队创造了首个纯粹基于 GPU 的深度 CNN,并在 2011 年到 2012 年期间的多项国际计算机视觉竞赛中胜出,引起了业界的广泛关注,指明了计算机视觉领域新的发展方向。Jürgen 认为,这一方向显然并不是 Hinton 奠定的。理由 5:Hinton 发明的「dropout」只是 Hanson 随机 delta 规则的变体本田奖在公告中表示:Hinton 发明了广泛使用的「dropout」方法,这种方法通过阻止特征检测器(feature detector)出现复杂的互适应,进而减少神经网络中的过拟合。Jürgen 则认为,「dropout」方法实际上是 Hanson 于 1990 年提出的随机 delta 规则(stochastic delta rule)的变体,并且 Hinton 2012 年发表的论文《ImageNet Classification with Deep Convolutional Neural Networks》中并没有引用 Hanson 的方法。理由 6:Hinton 被过分地夸大了,现在大多数基于 AI 的服务都是基于自己的 DL 技术本田奖在公告中表示:如果没有 Hinton 所取得的一系列科研成果,世界上大多数基于人工智能的技术服务则无法实现,这一点毋庸置疑。Jürgen 则认为,2010 年代世界上大多数基于人工智能技术的服务,包括数十亿台设备上的语音识别、语言翻译等功能,都是基于他们的深度学习技术,而不是 Hinton 的。Hinton 一再重复自己对现有基础技术的贡献,但正如猫王埃尔维斯·普雷斯利所说:「真相就像太阳,你可以让它暂时缺席, 却不能让它永远消失。」Jürgen 对 Hinton 的批评也引发了 reddit 网友的热烈讨论。对于「如何判断新发现/idea 的归属」以及 Jürgen 给出的每一条理由大家也发表了不同意见。这不是 Jürgen 第一次就研究发现的功劳发表看法。提到 Jürgen Schmidhuber,我们自然会想到关于「谁是 GAN 初创者」的那桩公案。Jürgen 一直认为 GAN 是其 PM 模型(1992)的变体,他与 Ian Goodfellow 从邮件到演讲展开了多次公开交流。去年,Jürgen 还独立发表了一篇综述论文,再一次概览了极小极大博弈,以及 PM 模型与 GAN 之间的强关联。时间追溯到 2015 年,《自然》杂志发表了一篇介绍人工神经网络(NN)的文章《Deep Learning》,它是深度学习的一篇标志性文章,目前引用量已经达到了 24621。这篇文章由 Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton 三人合著,从当下的卷积、循环和反向传播算法等核心概念概览了深度学习,并表示无监督学习、深度学习结合强化学习等方向才是发展趋势。Schmidhuber 在当年的一篇批判性文章中表示,作者在这篇文章中引用了很多自己的研究工作,而忽视了半个世纪以前开创领域的先驱者。看来 Jürgen 对「划分研究者的功劳」很是看重,这引起了一部分社区成员的认同。2018 年图灵奖颁发给三位人工智能先驱 Bengio、Hinton 和 LeCun 后,就有不少人认为 Jürgen 也应该获此奖项。但在关于这次批评的讨论帖下面,我们也看到了这样的言论:Jürgen 应当和 Bengio、Hinton 和 LeCun 一样获得图灵奖。但如果没有这三位先驱的工作,我们还在用 sigmoid 激活函数和启发式方法训练全连接神经网络,深陷于局部极小值的泥沼中呢。
http://people.idsia.ch/~juergen/critique-honda-prize-hinton.htmlhttp://people.idsia.ch/~juergen/deep-learning-conspiracy.htmlhttps://www.hondafoundation.jp/winner/view_en/1330https://www.reddit.com/r/MachineLearning/comments/g5ali0/d_schmidhuber_critique_of_honda_prize_for_dr/