2017 全球机器智能峰会(GMIS 2017),让我们近距离接触「LSTM 之父」Jürgen Schmidhuber。
2017 全球机器智能峰会(GMIS 2017)是由机器之心主办的全球人工智能盛会,将于 5 月 27 日至 28 日在北京 898 创新空间举行。本次大会将邀请海内外众多嘉宾及机构,权威、系统地介绍机器智能相关技术的前沿研究,探讨如何将技术转化成产品和应用等问题。
接下来,我们将逐一揭晓多位重磅嘉宾,今天带来的是被誉为 LSTM 之父的 Jürgen Schmidhuber。
LSTM 的研究意义有多大?我们从语音识别近年来的发展中可看出来。2015 年时,谷歌的研究人员使用 LSTM 减少了 49% 的语音识别错误,这是一个飞跃性进步。而后,众多语音识别方面的研究都会借助 LSTM 的概念,语音识别技术也成为人工智能领域商业化最快的技术之一。除了语音之外,LSTM 对最近视觉领域的快速进展也起到了关键作用。
作为 RNN 的一种变体,LSTM 的优势何在?之前 DeepLearning4j 授权机器之心发布的一篇有过详细的讲解,接下来我们从技术角度了解一下 LSTM。
LSTM 的优势
LSTM 是 Sepp Hochreiter 和 Jürgen Schmidhuber 在上世纪九十年代中期提出的,它可以解决梯度消失的问题,这一问题是影响 RNN 表现的重大障碍。
LSTM 还可保留误差,用于沿时间和层进行反向传递。LSTM 将误差保持在更为恒定的水平,让 RNN 能够进行许多个时间步的学习(超过 1000 个时间步),从而打开了建立远距离因果联系的通道。
LSTM 将信息存放在递归网络正常信息流之外的门控单元中。这些单元可以存储、写入或读取信息,就像计算机内存中的数据一样。单元通过门的开关判定存储哪些信息,以及何时允许读取、写入或清除信息。但与计算机中的数字式存储器不同的是,这些门是模拟的,包含输出范围全部在 0~1之间的 sigmoid 函数的逐元素相乘操作。相比数字式存储,模拟值的优点是可微分,因此适合反向传播。
这些门依据接收到的信号而开关,而且与神经网络的节点类似,它们会用自有的权重集对信息进行筛选,根据其强度和导入内容决定是否允许信息通过。这些权重就像调制输入和隐藏状态的权重一样,会通过递归网络的学习过程进行调整。也就是说,记忆单元会通过猜测、误差反向传播、用梯度下降调整权重的迭代过程学习何时允许数据进入、离开或被删除。
下图显示了数据在记忆单元中如何流动,以及单元中的门如何控制数据流动。
首先,最底部的三个箭头表示信息从多个点流入记忆单元。当前输入与过去的单元状态不只被送入记忆单元本身,同时也进入单元的三个门,而这些门将决定如何处理输入。
图中的黑点即是门,分别决定何时允许新输入进入,何时清除当前的单元状态,以及/或何时让单元状态对当前时间步的网络输出产生影响。S_c 是记忆单元的当前状态,而 g_y_in 是当前的输入。记住,每个门都可开可关,而且门在每个时间步都会重新组合开关状态。记忆单元在每个时间步都可以决定是否遗忘其状态,是否允许写入,是否允许读取,相应的信息流如图所示。
图中较大的黑体字母即是每项操作的结果。
下面是另一张图,将简单 RNN(左)与 LSTM 单元(右)进行对比。蓝线可忽略;图例有助理解。
应当注意的是,LSTM 的记忆单元在输入转换中给予加法和乘法不同的角色。两张图中央的加号其实就是 LSTM 的秘密。虽然看起来异常简单,这一基本的改变能帮助 LSTM 在必须进行深度反向传播时维持恒定的误差。LSTM 确定后续单元状态的方式并非将当前状态与新输入相乘,而是将两者相加,这正是 LSTM 的特别之处。(当然,遗忘门依旧使用乘法。)
不同的权重集对输入信息进行筛选,决定是否输入、输出或遗忘。遗忘门的形式是一个线性恒等函数,因为如果门打开,则记忆单元的当前状态就只会与 1 相乘,正向传播一个时间步。
此外,讲到简单的窍门,将每个 LSTM 单元遗忘门的偏差设定为 1,经证明可以提升网络表现。
LSTM 有多火?我们可用以下图表展示。据 Semantic Scholar 的数据显示,在过去的两年里《Long Short-Term Memory》一文的引用量激增。
LSTM 之父 Jürgen Schmidhuber
我们都知道,无论在哪个领域,开创新技术的人会成为明星。比如,Geoffrey Hinton 因为在深度学习的开创性研究加入谷歌;Sebastian Thrun 是谷歌自动驾驶汽车的奠基人;Yann LeCun,因为对卷积神经网络的推动而被请到了到 Facebook,成为这家科技巨头的研究领军人物。作为 LSTM 的开创者之一,Jürgen Schmidhuber 为何名声不显呢?
在之前约翰·马尔科夫采访 Jürgen Schmidhuber 的文章中,他把这归因于 Schmidhuber 的不幸——他的时代太早了,在计算机硬件性能足够处理这些算法之前。也是在近年来,LSTM 才开始流行起来。
现年 54 岁的 Jürgen Schmidhuber 是瑞士人工智能实验室 IDSIA 的科学事务主管。
在采访中,Jürgen Schmidhuber 曾表示他自 1987 年以来一直引领着自我改进式(self-improving)通用问题求解程序(problem-solver)的研究。从 1991 年开始,他成为深度学习神经网络领域的开拓者,6 年后他和另一作者提出 LSTM。
为何说 Jürgen Schmidhuber 是一位重量级人工智能研究者?我们接下来从学术影响力以及带领的研究团队对其进行介绍。
我们使用 Semantic Scholar 生成了 Jürgen Schmidhuber 的学术影响力图,他与 Geoffrey Hinton、Yann LeCun、Yoshua Bengio 等人工智能领域内的顶级学者都有着极大的影响力关联。
过去三年,Jürgen Schmidhuber 论文年均被引用数量为 4133 次。
在国际性比赛上,Jürgen Schmidhuber 带领下的团队也有着惊人的成绩,在多个领域创造了第一。比如其「Deep Learners」是第一个赢得物体识别和图像分割竞赛的冠军,也创造了世界首个超常视觉分类成绩,在 9 项国际性的机器学习和模式识别领域获得冠军。
值得一提得是 DeepMind 与 IDSIA 实验室的渊源。在 DeepMind 最早的四个成员中有两个是从 IDSIA 获得的博士学位,其中一个是联合创始人,另一个是公司的第一名员工。之后,Jürgen Schmidhuber 也有其他的博士学生稍后加入了 DeepMind。
有趣的一点是 Jürgen Schmidhuber 和 DeepMind 创始人 Demis Hassabis 有共同的人工智能愿景——通用人工智能。去年年初《卫报》对 Demis Hassabis 深度专访中,他提到自己将和 DeepMind 继续朝着「创造解决世界上一切问题的通用人工智能」的目标前进。
而在 2014 年,Jürgen Schmidhuber 也联合创建了 NNAISENSE,公司的目标是构建实用化的通用人工智能系统。今年 1 月份,NNAISENSE 成功获得了 A 轮融资。
参考文献:
专访深度学习元老Jürgen Schmidhuber:这个实验室如何孕育DeepMind
LSTM之父Jürgen Schmidhuber为何名声不显?
Jürgen Schmidhuber:人工智能在1991年就已经获得了「意识」
想了解 Jürgen Schmidhuber 的更多精彩分享?他将在 GIMS 2017 现场等你!
「2017 全球机器智能峰会(GMIS 2017)是由机器之心主办的关注全球人工智能及相关领域的行业盛会,将于 5 月 27 日至 2 日在北京 898 创新空间举行。在此次大会上 Jürgen Schmidhuber 将会为大家分享更多有关技术、研究等方面的精彩内容。
有关 GMIS 2017 大会的更多亮点,我们接下来将持续为大家展现。在机器智能时代,机器之心诚邀人工智能从业者及爱好者参会。获取大会详情及购票信息,点此查看。