LSTM 之父、深度学习元老 Jürgen Schmidhuber 发文纪念 10 年前发表的研究。
Jürgen Schmidhuber 每次发博客都会引起一阵「腥风血雨」,这次似乎也不例外。最近,这位机器学习大牛发布博客,纪念 10 年前发表在 Neural Computation 期刊上的一篇论文《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》,这篇文章主要介绍通过在 GPU 上执行梯度下降来训练深度多层感知机。论文地址:https://www.catalyzex.com/paper/arxiv:1003.0358令人惊讶的是,这个简单但深层的监督式神经网络在机器学习基准数据集 MNIST 上的性能超过所有之前的方法。也就是说,在计算成本相当于今天 100 倍的 2010 年,我们提出的前馈神经网络和更早提出的循环神经网络就在当时的重要问题上打败了所有竞争算法。2010 年代,这一深度学习改革迅速从欧洲向美洲和亚洲扩展。
仅仅在十年前,很多人认为深度神经网络在不进行无监督预训练的情况下无法学习。事实上,2007 年 Geoffrey Hinton 在《The Next Generation of Neural Networks》讲座中表示「明智的人不会建议」通过反向传播使用梯度下降来训练具备多层神经元的前馈神经网络(FNN)。但在 2010 年 3 月,Jürgen 团队证明了,深度前馈神经网络确实可以通过反向传播训练得到,并且既不需要无监督预训练,也不需要 Ivakhnenko 1965 年提出的渐进式逐层训练。按照 2010 年的标准,Jürgen 团队创建的监督式神经网络具备很多层,并在当时广泛使用的图像识别基准数据集 MNIST 上创造了新的性能记录。这是通过在高速并行 GPU 上大幅加速传统多层感知机而实现的,超越了 Jung & Oh (2004) 的重要工作(《GPU implementation of neural networks》)。有人称它「唤醒了机器学习社区」。这一研究结果为最近十年的深度学习发展奠定了基础。2011 年 2 月,Jürgen 团队将该方法扩展至深度卷积神经网络,极大地改进了之前的工作。这个被称为 DanNet 的网络打破了多项基准记录。2011 年 5 月,DanNet 成为首个获得计算机视觉竞赛的深度 CNN 网络。2011 年 8 月,它首次以超越人类的性能获得计算机视觉竞赛(IJCNN Traffic Sign Recognition Competition of INI/RUB)的冠军。2012 年,Jürgen 团队继续在多项计算机视觉赛事中夺冠。之后,很多研究者也采用了这项技术。2015 年 5 月,Jürgen 团队首次创建了具备 100 多层的深度前馈神经网络。图源:http://people.idsia.ch/~juergen/computer-vision-contests-won-by-gpu-cnns.html这些成功需要对 GPU 的内在工作原理有准确的理解。现在,便捷的软件包使用户远离了这类细节。计算成本也比十年前廉价得多,很多商业神经网络应用都基于 2010 年的研究 [MLP1] [DL1-4] [DEC]。在这样的背景下需要提及的是,2010 年代之前,Jürgen 团队已经利用更强大的循环神经网络获得了另一项监督式深度学习突破。Jürgen 的博士生 Alex Graves 在著名文档分析与识别会议 ICDAR 2009 上获得了 3 项连笔字竞赛的冠军。他结合了 Jürgen 研究小组在慕尼黑工业大学和瑞士人工智能实验室 IDSIA 提出的两种方法:监督式 LSTM RNN (1990s-2005) 和「Connectionist Temporal Classification」(CTC)。CTC 训练的 LSTM 是首个在国际赛事中夺冠的 RNN。2010 年,Jürgen 团队的监督式 FNN 和监督式 RNN 在多个重要问题上超越其他方法。2010 年代,这一监督式深度学习改革训练从欧洲扩展至北美和亚洲,对业界和人们的日常生活产生了巨大影响。但应该提及的是,深度学习的概念根源可以追溯至上个世纪。最后,Jürgen 强调了 2010 年代监督式深度学习改革并没有杀死无监督学习的所有变体。很多仍然非常重要,例如现在在迁移学习语境下得到大量应用的预训练语言模型,如 BERT。1990 年之后 Jürgen 团队关于无监督神经网络的研究目前仍用于为智能体赋予好奇心。在博客的结尾,Jürgen 表示:「无监督学习仍然有光明的未来!」这篇博客发布后不久,就在 reddit 上引发热议。针对 Jürgen 近年来的行为(与 Ian Goodfellow 争辩 GAN 的归属、与 Hinton 论战等),有网友开启了嘲讽模式:Schmidhuber 被低估了,他的工作走在了潮流前面。
关于 Jürgen 在博客中指出 Hinton 2007 年不赞同使用反向传播一事,有网友表示:2007 年不相信一件事,2008 年不能改变主意吗?
除去这些表层的争论以外,关于该博客的主题——Jürgen 团队 2010 年的研究《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》及其扩展后提出的 DanNet,有网友提出疑问:这么说的话,AlexNet 不像大家认为的那样是转折点吗?
http://people.idsia.ch/~juergen/2010-breakthrough-supervised-deep-learning.htmlhttps://www.reddit.com/r/MachineLearning/comments/il2iw0/d_2010_breakthrough_of_supervised_deep_learning/