Jürgen Schmidhuber发文纪念10年前的研究，网友：转折点非AlexNet？

LSTM 之父、深度学习元老 Jürgen Schmidhuber 发文纪念 10 年前发表的研究。

Jürgen Schmidhuber 每次发博客都会引起一阵「腥风血雨」，这次似乎也不例外。

最近，这位机器学习大牛发布博客，纪念 10 年前发表在 Neural Computation 期刊上的一篇论文《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》，这篇文章主要介绍通过在 GPU 上执行梯度下降来训练深度多层感知机。

论文地址：https://www.catalyzex.com/paper/arxiv:1003.0358

在博客开头，Jürgen 这样评价该论文：

令人惊讶的是，这个简单但深层的监督式神经网络在机器学习基准数据集 MNIST 上的性能超过所有之前的方法。也就是说，在计算成本相当于今天 100 倍的 2010 年，我们提出的前馈神经网络和更早提出的循环神经网络就在当时的重要问题上打败了所有竞争算法。2010 年代，这一深度学习改革迅速从欧洲向美洲和亚洲扩展。

博客的具体内容如下：

仅仅在十年前，很多人认为深度神经网络在不进行无监督预训练的情况下无法学习。事实上，2007 年 Geoffrey Hinton 在《The Next Generation of Neural Networks》讲座中表示「明智的人不会建议」通过反向传播使用梯度下降来训练具备多层神经元的前馈神经网络（FNN）。

但在 2010 年 3 月，Jürgen 团队证明了，深度前馈神经网络确实可以通过反向传播训练得到，并且既不需要无监督预训练，也不需要 Ivakhnenko 1965 年提出的渐进式逐层训练。

按照 2010 年的标准，Jürgen 团队创建的监督式神经网络具备很多层，并在当时广泛使用的图像识别基准数据集 MNIST 上创造了新的性能记录。这是通过在高速并行 GPU 上大幅加速传统多层感知机而实现的，超越了 Jung & Oh (2004) 的重要工作（《GPU implementation of neural networks》）。有人称它「唤醒了机器学习社区」。

这一研究结果为最近十年的深度学习发展奠定了基础。2011 年 2 月，Jürgen 团队将该方法扩展至深度卷积神经网络，极大地改进了之前的工作。这个被称为 DanNet 的网络打破了多项基准记录。2011 年 5 月，DanNet 成为首个获得计算机视觉竞赛的深度 CNN 网络。2011 年 8 月，它首次以超越人类的性能获得计算机视觉竞赛（IJCNN Traffic Sign Recognition Competition of INI/RUB）的冠军。2012 年，Jürgen 团队继续在多项计算机视觉赛事中夺冠。之后，很多研究者也采用了这项技术。2015 年 5 月，Jürgen 团队首次创建了具备 100 多层的深度前馈神经网络。

图源：http://people.idsia.ch/~juergen/computer-vision-contests-won-by-gpu-cnns.html

这些成功需要对 GPU 的内在工作原理有准确的理解。现在，便捷的软件包使用户远离了这类细节。计算成本也比十年前廉价得多，很多商业神经网络应用都基于 2010 年的研究 [MLP1] [DL1-4] [DEC]。

在这样的背景下需要提及的是，2010 年代之前，Jürgen 团队已经利用更强大的循环神经网络获得了另一项监督式深度学习突破。Jürgen 的博士生 Alex Graves 在著名文档分析与识别会议 ICDAR 2009 上获得了 3 项连笔字竞赛的冠军。他结合了 Jürgen 研究小组在慕尼黑工业大学和瑞士人工智能实验室 IDSIA 提出的两种方法：监督式 LSTM RNN (1990s-2005) 和「Connectionist Temporal Classification」（CTC）。CTC 训练的 LSTM 是首个在国际赛事中夺冠的 RNN。

2010 年，Jürgen 团队的监督式 FNN 和监督式 RNN 在多个重要问题上超越其他方法。2010 年代，这一监督式深度学习改革训练从欧洲扩展至北美和亚洲，对业界和人们的日常生活产生了巨大影响。但应该提及的是，深度学习的概念根源可以追溯至上个世纪。

最后，Jürgen 强调了 2010 年代监督式深度学习改革并没有杀死无监督学习的所有变体。很多仍然非常重要，例如现在在迁移学习语境下得到大量应用的预训练语言模型，如 BERT。1990 年之后 Jürgen 团队关于无监督神经网络的研究目前仍用于为智能体赋予好奇心。

在博客的结尾，Jürgen 表示：「无监督学习仍然有光明的未来！」

一如既往：Jürgen 出手，必有争论

这篇博客发布后不久，就在 reddit 上引发热议。

针对 Jürgen 近年来的行为（与 Ian Goodfellow 争辩 GAN 的归属、与 Hinton 论战等），有网友开启了嘲讽模式：

他还要一直提醒你这件事，直到你离开这个世界。

当然，也有人支持他：

Schmidhuber 被低估了，他的工作走在了潮流前面。

关于 Jürgen 在博客中指出 Hinton 2007 年不赞同使用反向传播一事，有网友表示：

2007 年不相信一件事，2008 年不能改变主意吗？

除去这些表层的争论以外，关于该博客的主题——Jürgen 团队 2010 年的研究《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》及其扩展后提出的 DanNet，有网友提出疑问：

这么说的话，AlexNet 不像大家认为的那样是转折点吗？

参考链接：

http://people.idsia.ch/~juergen/2010-breakthrough-supervised-deep-learning.html

https://www.reddit.com/r/MachineLearning/comments/il2iw0/d_2010_breakthrough_of_supervised_deep_learning/

理论机器学习深度学习

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心