2019/03/27 19:34

2018图灵奖公布！Hinton、Bengio、LeCun深度学习三巨头共享

刚刚，ACM 公布 2018 年图灵奖得主是 Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun 三位深度学习巨头。据官方公告介绍，因三位巨头在深度神经网络概念和工程上的突破，使得 DNN 成为计算的一个重要构成，从而成为 2018 年图灵奖得主。

这是图灵奖十年来第三次颁给机器学习领域的杰出贡献者了：2011 年图灵奖得主为 Judea Pearl，他开发的概率与因果推理微积分为人工智能发展做出了重大贡献。Leslie Gabriel Valiant 获得了 2010 年图灵奖，他为计算理论的发展作出了变革性贡献，包括 PAC 学习理论、并行与分布计算理论等。

图源：https://amturing.acm.org/byyear.cfm

相信读者对这三位巨头的名字已经耳熟能详。

Yoshua Bengio 是蒙特利尔大学教授、魁北克人工智能机构 Mila 的科学主管。Geoffrey Hinton 是谷歌副总裁、工程研究员，也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣誉教授。Yann LeCun 是纽约大学教授、Facebook 副总裁和首席 AI 科学家。

或是独立或是协作，Hinton、LeCun 和 Bengio 开发了深度学习领域的概念基础，并通过实验验证了令人惊讶的现象，此外，他们还贡献了一些工程进展，展示了深度神经网络的实用优势。近年来，深度学习方法促进计算机视觉、语音识别、自然语言处理和机器人技术等应用领域取得极大突破。

虽然在 20 世纪 80 年代，研究者就引入了人工神经网络帮助计算机识别模式、模拟人类智能，但一直到 21 世纪初，LeCun、Hinton 和 Bengio 这样一小撮研究者仍然坚持这种方法。虽然一开始，他们重燃人工智能社区对神经网络兴趣的努力遭到了怀疑，但如今他们的想法带来了重大的技术进步，他们的方法也已成为该领域的主导范式。

图灵奖是计算机协会（ACM）于 1966 年设立的奖项，专门奖励对计算机事业作出重要贡献的个人，有「计算机界诺贝尔奖」之称，奖金为 100 万美元，由谷歌公司赞助。图灵奖的名称取自英国数学家艾伦·图灵（Alan M. Turing），他奠定了计算机的数学基础和局限性。

ACM 主席 Cherri M. Pancake 表示，「人工智能如今是整个科学界发展最快的领域之一，也是社会上讨论最广的主题之一。AI 的发展、人们对 AI 的兴趣，很大程度上是因为深度学习的近期进展，而 Bengio、Hinton 和 LeCun 为此奠定了重要基础。这些技术如今已被数十亿人使用。通过口袋中的手机，人们能够体验到 10 年前不可能体验的自然语言处理和计算机视觉技术。除了我们每天使用到的产品，深度学习的最新进展也为医疗、天文、材料科学等各个领域的科学家们带来了强大的新型工具。

「深度神经网络促进了现代计算机科学的极大进步，在解决计算机视觉、语音识别和自然语言处理领域中的长期问题方面取得了极大进展。」Google AI 负责人 Jeff Dean 表示，「该进展的核心得益于今年图灵奖得主 Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun 30 多年前开发的基础技术。深度神经网络显著提升了计算机感知世界的能力，它不仅改变了计算领域，也几乎改变了科学和人类奋斗的所有领域。」

机器学习、神经网络和深度学习

传统计算中，计算机程序使用明确的一步步指令指引计算机。而在深度学习这一 AI 研究子领域中，计算机并未得到关于如何解决特定任务的显式说明。深度学习使用学习算法从数据中提取输入数据与期望输出的关联模式，比如输入数据为图像像素，输出为标签「猫」。研究者面临的挑战是开发出高效的学习算法，修改神经网络中连接的权重以使它能够捕捉到数据中的关联模式。

自 20 世纪 80 年代开始，Geoffrey Hinton 就开始提倡使用机器学习方法进行人工智能研究，他希望通过人脑运作方式探索机器学习系统。受人脑的启发，他和其他研究者提出了「人工神经网络」（artificial neural network），为机器学习研究奠定了基石。

在计算机科学领域，「神经网络」指由多个简单计算元素（神经元）层所组成的系统。这些「神经元」仅仅大致地模仿了人脑中的神经元，但却能通过加权连接互相影响。通过改变连接的权重来改变神经网络所执行的计算。Hinton、LeCun 和 Bengio 认识到使用多层深度网络的重要性，即「深度学习」。

由于 GPU 计算机的普及和海量数据的获取，Hinton、LeCun 和 Bengio 在 30 年中所奠定的概念基础和工程实践得到了极大提升。近年来，多种因素导致计算机视觉、语音识别和机器翻译等技术出现了跳跃式发展。

Hinton、LeCun 和 Bengio 也曾合作过。LeCun 曾在 Hinton 的指导下完成博士后工作，20 世纪 90 年代，LeCun 和 Bengio 都在贝尔实验室工作。即使不在一起工作的时候，他们的研究中也存在协同和相互关联性，他们对彼此产生了巨大的影响。

这三位大牛目前继续探索机器学习与神经科学和认知科学之间的交叉领域，最著名的是他们共同参与了加拿大高级研究所（CIFAR）的「机器与大脑学习计划（Learning in Machines and Brains program）。

主要技术成就

今年图灵奖得主的技术成就带来了 AI 技术的极大突破，包括但不限于以下成果。

Geoffrey Hinton

ACM 表示 Geoffrey E Hinton 主要有三大重要贡献：

反向传播
玻尔兹曼机
对卷积神经网络的修正

在 1986 年的一篇论文中，Hinton 与 David Rumelhart 和 Ronald Williams 提出了反向传播，这篇论文即著名的《Learning Internal Representations by Error Propagation》。Hinton 等研究者表示反向传播算法允许神经网络探索数据内部的深层表征，因此神经网络才能解决以前被认为无法解决的问题。反向传播目前已经成为训练深度神经网络所必需的算法。

1983 年，Hinton 和 Terrence Sejnowski 提出了玻尔兹曼机，它是第一个能学习神经元内部表征的深度神经网络，这种表征既不是输入也不是输出的一部分。

到了 2012 年，Hinton 与他的学生 Alex Krizhevsky 和 Ilya Sutskever 为卷积神经网络的发展做出了重要贡献。他们率先使用修正线性神经元（ReLU）和 Dropout 正则化大大提升了深度卷积神经网络的性能。在当年的 ImageNet 竞赛中，Hinton 和他的学生几乎将图像识别的误差率减半，这一次挑战赛重塑了计算机视觉领域。

Yoshua Bengio

ACM 表示 Yoshua Bengio 主要有三大重要贡献：

序列的概率建模
高维词嵌入与注意力机制
生成对抗网络

在上个世纪九十年代，Bengio 提出将神经网络与序列的概率建模相结合，例如隐马尔可夫模型这种序列的概率建模方法。这些创新观点被 AT&T/NCR 所接受，并用于阅读手写支票，该系统被认为是九十年代神经网络研究的巅峰之作，现代基于深度学习的语音识别系统都是在这些概念上继续扩展的。

在 2000 年，Bengio 等研究者发表了一篇具有里程碑意义的论文《A Neural Probabilistic Language Model》，该论文引入了高维词嵌入作为词义的表征方法。Bengio 的观点对自然语言处理任务产生了巨大而持久的影响，包括机器翻译、知识问答、视觉问答等等。他的研究团队还提出了一种注意力机制，该方法直接导致了机器翻译领域的突破，并构成了深度学习序列建模的关键组成部分。

自 2010 年以来，Bengio 非常关注生成式深度学习，特别是他与 Ian Goodfellow 等研究者提出的生成对抗网络（GAN），这项研究引起了计算机视觉和计算机图形学的革命。这项工作令人惊奇的地方在于，计算机能生成与原始图像相媲美的图像，这难免让人联想到人类水平的创造力。

Yann LeCun

ACM 表示 Yann LeCun 主要有三大重要贡献：

提出卷积神经网络
改进反向传播算法
拓宽神经网络的视角

20 世纪 80 年代，LeCun 构建了卷积神经网络，这是该领域的一项重要理论，对于提高深度学习效率至关重要。20 世纪 80 年代后期，LeCun 就职于多伦多大学和贝尔实验室，也是在这一时期，它利用手写数字图像训练了第一个卷积神经网络系统。如今，卷积神经网络已成为计算机视觉、语音识别、语音合成、图像合成和自然语言处理领域的行业标准。卷积神经网络有着广泛的应用，如自动驾驶、医学图像分析、语音助手和信息过滤等。

改进反向传播算法，LeCun 提出了一个早期版本的反向传播算法（backprop），并基于变分原理给出了一个清晰的推导。他加速反向传播算法的工作包括描述加快学习速度的两个简单方法。

LeCun 的贡献还包括拓宽神经网络的研究视角，他将神经网络发展为一种计算模型，用到一系列任务中，他早期工作中的一些概念已成为 AI 发展的基石。例如，在图像识别领域，他研究了如何在神经网络中学习分层特征表征——这一概念现在经常用于许多识别任务。他和 Leon Bottou 一起提出：学习系统可以被构建为复杂的模块网络，在这个网络中，反向传播通过自动微分来执行，这一理念用在每一个现代深度学习软件中。他们还提出了可以处理结构化数据的深度学习架构，如「图」（graph）。

原文链接：https://awards.acm.org/about/2018-turing

理论图灵奖Geoffrey HintonYoshua BengioYann LeCun深度学习深度神经网络

4 1

相关数据

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

计算机图形技术

图像数据处理、计算机图像（英语：Computer Graphics）是指用计算机所创造的图形。更具体的说，就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

来源：维基百科

因果推理技术

基于因果关系的一类推理方法，是一种常见推理模式，涉及观察到的共同效应的原因的概率依赖性。

来源：Intercausal reasoning with uninstantiated ancestor nodes

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

视觉问答技术

Dropout技术

神经网络训练中防止过拟合的一种技术

来源：ImageNet Classification with Deep Convolutional

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

神经科学技术

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

反向传播算法技术

反向传播（英语：Backpropagation，缩写为BP）是“误差反向传播”的简称，是一种与最优化方法（如梯度下降法）结合使用的，用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法，用来更新权值以最小化损失函数。在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算（并缓存）每个节点的输出值，然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

来源：维基百科 Google ML glossary

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

玻尔兹曼机技术

玻尔兹曼机（Boltzmann machine）是随机神经网络和递归神经网络的一种，由杰弗里·辛顿(Geoffrey Hinton)和特里·谢泽诺斯基(Terry Sejnowski)在1985年发明。玻尔兹曼机可被视作随机过程的，可生成的相应的Hopfield神经网络。它是最早能够学习内部表达，并能表达和（给定充足的时间）解决复杂的组合优化问题的神经网络。但是，没有特定限制连接方式的玻尔兹曼机目前为止并未被证明对机器学习的实际问题有什么用。所以它目前只在理论上显得有趣。然而，由于局部性和训练算法的赫布性质(Hebbian nature)，以及它们和简单物理过程相似的并行性，如果连接方式是受约束的（即受限玻尔兹曼机），学习方式在解决实际问题上将会足够高效。它由玻尔兹曼分布得名。该分布用于玻尔兹曼机的抽样函数。

来源：维基百科

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

隐马尔可夫模型技术

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

来源：维基百科

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

微积分技术

微积分（Calculus）是高等数学中研究函数的微分(Differentiation)、积分(Integration)以及有关概念和应用的数学分支。它是数学的一个基础学科。内容主要包括极限、微分学、积分学及其应用。微分学包括求导数的运算，是一套关于变化率的理论。它使得函数、速度、加速度和曲线的斜率等均可用一套通用的符号进行讨论。积分学，包括求积分的运算，为定义和计算面积、体积等提供一套通用的方法。

来源：百度百科

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks