2017/03/27 16:11

机器之心「GMIS 2017」嘉宾揭秘：LSTM之父Jürgen Schmidhuber

2017 全球机器智能峰会（GMIS 2017），让我们近距离接触「LSTM 之父」Jürgen Schmidhuber。

2017 全球机器智能峰会（GMIS 2017）是由机器之心主办的全球人工智能盛会，将于 5 月 27 日至 28 日在北京 898 创新空间举行。本次大会将邀请海内外众多嘉宾及机构，权威、系统地介绍机器智能相关技术的前沿研究，探讨如何将技术转化成产品和应用等问题。

接下来，我们将逐一揭晓多位重磅嘉宾，今天带来的是被誉为 LSTM 之父的 Jürgen Schmidhuber。

LSTM 的研究意义有多大？我们从语音识别近年来的发展中可看出来。2015 年时，谷歌的研究人员使用 LSTM 减少了 49% 的语音识别错误，这是一个飞跃性进步。而后，众多语音识别方面的研究都会借助 LSTM 的概念，语音识别技术也成为人工智能领域商业化最快的技术之一。除了语音之外，LSTM 对最近视觉领域的快速进展也起到了关键作用。

作为 RNN 的一种变体，LSTM 的优势何在？之前 DeepLearning4j 授权机器之心发布的一篇有过详细的讲解，接下来我们从技术角度了解一下 LSTM。

LSTM 的优势

LSTM 是 Sepp Hochreiter 和 Jürgen Schmidhuber 在上世纪九十年代中期提出的，它可以解决梯度消失的问题，这一问题是影响 RNN 表现的重大障碍。

LSTM 还可保留误差，用于沿时间和层进行反向传递。LSTM 将误差保持在更为恒定的水平，让 RNN 能够进行许多个时间步的学习（超过 1000 个时间步），从而打开了建立远距离因果联系的通道。

LSTM 将信息存放在递归网络正常信息流之外的门控单元中。这些单元可以存储、写入或读取信息，就像计算机内存中的数据一样。单元通过门的开关判定存储哪些信息，以及何时允许读取、写入或清除信息。但与计算机中的数字式存储器不同的是，这些门是模拟的，包含输出范围全部在 0～１之间的 sigmoid 函数的逐元素相乘操作。相比数字式存储，模拟值的优点是可微分，因此适合反向传播。

这些门依据接收到的信号而开关，而且与神经网络的节点类似，它们会用自有的权重集对信息进行筛选，根据其强度和导入内容决定是否允许信息通过。这些权重就像调制输入和隐藏状态的权重一样，会通过递归网络的学习过程进行调整。也就是说，记忆单元会通过猜测、误差反向传播、用梯度下降调整权重的迭代过程学习何时允许数据进入、离开或被删除。

下图显示了数据在记忆单元中如何流动，以及单元中的门如何控制数据流动。

首先，最底部的三个箭头表示信息从多个点流入记忆单元。当前输入与过去的单元状态不只被送入记忆单元本身，同时也进入单元的三个门，而这些门将决定如何处理输入。

图中的黑点即是门，分别决定何时允许新输入进入，何时清除当前的单元状态，以及/或何时让单元状态对当前时间步的网络输出产生影响。S_c 是记忆单元的当前状态，而 g_y_in 是当前的输入。记住，每个门都可开可关，而且门在每个时间步都会重新组合开关状态。记忆单元在每个时间步都可以决定是否遗忘其状态，是否允许写入，是否允许读取，相应的信息流如图所示。

图中较大的黑体字母即是每项操作的结果。

下面是另一张图，将简单 RNN（左）与 LSTM 单元（右）进行对比。蓝线可忽略；图例有助理解。

应当注意的是，LSTM 的记忆单元在输入转换中给予加法和乘法不同的角色。两张图中央的加号其实就是 LSTM 的秘密。虽然看起来异常简单，这一基本的改变能帮助 LSTM 在必须进行深度反向传播时维持恒定的误差。LSTM 确定后续单元状态的方式并非将当前状态与新输入相乘，而是将两者相加，这正是 LSTM 的特别之处。（当然，遗忘门依旧使用乘法。）

不同的权重集对输入信息进行筛选，决定是否输入、输出或遗忘。遗忘门的形式是一个线性恒等函数，因为如果门打开，则记忆单元的当前状态就只会与 1 相乘，正向传播一个时间步。

此外，讲到简单的窍门，将每个 LSTM 单元遗忘门的偏差设定为 1，经证明可以提升网络表现。

LSTM 有多火？我们可用以下图表展示。据 Semantic Scholar 的数据显示，在过去的两年里《Long Short-Term Memory》一文的引用量激增。

LSTM 之父 Jürgen Schmidhuber

我们都知道，无论在哪个领域，开创新技术的人会成为明星。比如，Geoffrey Hinton 因为在深度学习的开创性研究加入谷歌；Sebastian Thrun 是谷歌自动驾驶汽车的奠基人；Yann LeCun，因为对卷积神经网络的推动而被请到了到 Facebook，成为这家科技巨头的研究领军人物。作为 LSTM 的开创者之一，Jürgen Schmidhuber 为何名声不显呢？

在之前约翰·马尔科夫采访 Jürgen Schmidhuber 的文章中，他把这归因于 Schmidhuber 的不幸——他的时代太早了，在计算机硬件性能足够处理这些算法之前。也是在近年来，LSTM 才开始流行起来。

现年 54 岁的 Jürgen Schmidhuber 是瑞士人工智能实验室 IDSIA 的科学事务主管。

在采访中，Jürgen Schmidhuber 曾表示他自 1987 年以来一直引领着自我改进式（self-improving）通用问题求解程序（problem-solver）的研究。从 1991 年开始，他成为深度学习神经网络领域的开拓者，6 年后他和另一作者提出 LSTM。

为何说 Jürgen Schmidhuber 是一位重量级人工智能研究者？我们接下来从学术影响力以及带领的研究团队对其进行介绍。

我们使用 Semantic Scholar 生成了 Jürgen Schmidhuber 的学术影响力图，他与 Geoffrey Hinton、Yann LeCun、Yoshua Bengio 等人工智能领域内的顶级学者都有着极大的影响力关联。

过去三年，Jürgen Schmidhuber 论文年均被引用数量为 4133 次。

微信图片_20170327160732.png

在国际性比赛上，Jürgen Schmidhuber 带领下的团队也有着惊人的成绩，在多个领域创造了第一。比如其「Deep Learners」是第一个赢得物体识别和图像分割竞赛的冠军，也创造了世界首个超常视觉分类成绩，在 9 项国际性的机器学习和模式识别领域获得冠军。

值得一提得是 DeepMind 与 IDSIA 实验室的渊源。在 DeepMind 最早的四个成员中有两个是从 IDSIA 获得的博士学位，其中一个是联合创始人，另一个是公司的第一名员工。之后，Jürgen Schmidhuber 也有其他的博士学生稍后加入了 DeepMind。

有趣的一点是 Jürgen Schmidhuber 和 DeepMind 创始人 Demis Hassabis 有共同的人工智能愿景——通用人工智能。去年年初《卫报》对 Demis Hassabis 深度专访中，他提到自己将和 DeepMind 继续朝着「创造解决世界上一切问题的通用人工智能」的目标前进。

而在 2014 年，Jürgen Schmidhuber 也联合创建了 NNAISENSE，公司的目标是构建实用化的通用人工智能系统。今年 1 月份，NNAISENSE 成功获得了 A 轮融资。

参考文献：

专访深度学习元老Jürgen Schmidhuber：这个实验室如何孕育DeepMind

LSTM之父Jürgen Schmidhuber为何名声不显？

Jürgen Schmidhuber：人工智能在1991年就已经获得了「意识」

LSTM 和递归网络基础教程

想了解 Jürgen Schmidhuber 的更多精彩分享？他将在 GIMS 2017 现场等你！

「2017 全球机器智能峰会（GMIS 2017）是由机器之心主办的关注全球人工智能及相关领域的行业盛会，将于 5 月 27 日至 2 日在北京 898 创新空间举行。在此次大会上 Jürgen Schmidhuber 将会为大家分享更多有关技术、研究等方面的精彩内容。

有关 GMIS 2017 大会的更多亮点，我们接下来将持续为大家展现。在机器智能时代，机器之心诚邀人工智能从业者及爱好者参会。获取大会详情及购票信息，点此查看。

入门产业机器之心GMIS 2017Jürgen Schmidhuber