杜佳豪翻译

2020/01/01 15:01

Leo Gao作者一鸣、泽南、蛋酱参与

告别2019：属于深度学习的十年，那些我们必须知道的经典

2020 新年快乐！

当今天的太阳升起时，我们正式告别了上一个十年。

在这十年中，伴随着计算能力和大数据方面的发展，深度学习已经攻克了许多曾经让我们感到棘手的问题，尤其是计算机视觉和自然语言处理方面。此外，深度学习技术也越来越多地走进我们的生活，变得无处不在。

这篇文章总结了过去十年中在深度学习领域具有影响力的论文，从 ReLU、AlexNet、GAN 到 Transformer、BERT 等。每一年还有很多荣誉提名，包括了众多名声在外的研究成果。

2011 年：激活函数 ReLU

《Deep Sparse Rectifier Neural Networks（ReLU）》

论文链接：http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf（被引用量 4071）

早期的神经网络大多使用 sigmoid 激活函数。虽然它具有很好的效果，但是，随着层数的增加，这种激活函数使得梯度很容易出现衰减。在 2011 年的这篇论文中，ReLU 被正式提出。它能够帮助解决梯度消失的问题，为神经网络增加深度铺路。

Sigmoid 及其导数。

当然，ReLU 也有一些缺点。在函数为 0 的时候不可微，而神经元可能会「死亡」。在 2011 年之后，很多针对 ReLU 的改进也被提了出来。

年度荣誉提名：（这一年的大部分研究集中于对激活函数的改进）

1、《Rectifier Nonlinearities Improve Neural Network Acoustic Models（Leaky ReLU）》

基于对 ReLU 进行了改进的激活函数，在 x 为负时不取 0。

论文链接：https://ai.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf

2、《Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)》

论文链接：https://arxiv.org/abs/1511.07289

3、《Self-Normalizing Neural Networks（SELUs）》

论文链接：https://arxiv.org/abs/1706.02515

4、《Gaussian Error Linear Units (GELUs)》

这一激活函数已证明比 ReLU 效果更好，BERT 等模型已使用。

论文链接：https://arxiv.org/abs/1606.08415

2012 年：掀起深度学习浪潮的 AlexNet

《ImageNet Classification with Deep Convolutional Neural Networks（AlexNet）》

论文链接：https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks（被引用量 52025）

AlexNet 架构。

AlexNet 经常被认为是这一波人工智能浪潮的起点，该网络在 ImageNet 挑战赛中的错误率与前一届冠军相比减小了 10% 以上，比亚军高出 10.8 个百分点。AlexNet 是由多伦多大学 SuperVision 组设计的，由 Alex Krizhevsky, Geoffrey Hinton 和 Ilya Sutskever 组成。

AlexNet 是一个 8 层的卷积神经网络，使用 ReLU 激活函数，总共有 6 千万参数量。AlexNet 的最大贡献在于证明了深度学习的能力。它也是第一个使用并行计算和 GPU 进行加速的网络。

在 ImageNet 上，AlexNet 取得了很好的表现。它将识别错误率从 26.2% 降到了 15.3%。显著的性能提升吸引了业界关注深度学习，使得 AlexNet 成为了现在这一领域引用最多的论文。

年度荣誉提名：

1、《ImageNet: A Large-Scale Hierarchical Image Database（ImageNet）》

ImageNet 是斯坦福大学李飞飞等人完成的一个用于图像识别的数据集，是计算机视觉领域检验模型性能的基准数据集。

论文链接：http://www.image-net.org/papers/imagenet_cvpr09.pdf

ImageNet

2、《Flexible, High Performance Convolutional Neural Networks for Image Classification（Jurgen Schmidhuber 为通讯作者）》

论文链接：http://people.idsia.ch/~juergen/ijcai2011.pdf

3、《Gradient-Based Learning Applied to Document Recognition》

论文链接：http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf

2013 年：NLP 的经典 word2vec，开启深度强化学习时代

《Distributed Representations of Words and Phrases and their Compositionality（word2vec）》

论文链接：https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf（被引用量 16923）

Word2vec 是由谷歌研究团队里 Thomas Mikolov 等人提出的模型，该模型能从非常大的数据集中计算出用以表示词的连续型向量。word2vec 成为了 NLP 领域的深度学习主要的文本编码方式。它基于在相同语境中同时出现词具有相似含义的思路，使文本可以被嵌入为向量，并用于其他下游任务。

年度荣誉提名：

1、《GloVe: Global Vectors for Word Representation》

论文链接：https://nlp.stanford.edu/pubs/glove.pdf

2、《Playing Atari with Deep Reinforcement Learning》

论文链接：https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf（被引用量 3251）

DeepMind 的 DQN 模型玩雅达利游戏

DeepMind 在这一年提出的用 DQN 玩雅达利游戏开启了深度强化学习研究的大门。强化学习过去大多数情况下用在低维环境中，很难在更复杂的环境中使用。雅达利游戏是第一个强化学习在高维环境中的应用。这一研究提出了 Deep Q-learning 算法，使用了一个基于价值的奖励函数。

年度荣誉提名：

1、《Learning from Delayed Rewards（Q-Learning）》

论文链接：http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

2014 年：GAN；Adam；Attention 机制

《Generative Adversarial Networks》

论文链接：https://papers.nips.cc/paper/5423-generative-adversarial-nets（被引用量 13917）

生成对抗网络（Generative Adversarial Network，简称 GAN）是 Ian Goodefellow 等人提出的非监督式学习方法，通过让两个神经网络相互博弈的方式进行学习。自 2014 年 GAN 网络提出以来，其在 Computer Vision（计算机视觉）等领域获得了广泛的关注。

生成对抗网络（GAN）的成功在于它能够生成逼真图片。这一网络通过使用生成器和判别器之间的最小最大（minimax）博弈，GAN 能够建模高纬度、复杂的数据分布。在 GAN 中，生成器用于生成假的样本，而判别器进行判断（是否为生成数据）。

年度荣誉提名：

1、《Wasserstein GAN & Improved Training of Wasserstein GANs（WGAN）》

WGAN 是 GAN 的改进版本，取得了更好的效果。

论文链接：https://arxiv.org/abs/1701.07875

2、《StyleGAN》

StyleGAN 生成的图像

论文链接：https://arxiv.org/abs/1812.04948

3、《Neural Machine Translation by Jointly Learning to Align and Translate（attention 机制）》

论文链接：https://arxiv.org/abs/1409.0473（被引用量 9882）

注意力的可视化结果

这篇论文介绍了注意力机制的思路。与其将所有信息压缩到一个 RNN 的隐层中，不如将整个语境保存在内存中。这使得所有的输出都能和输入对应。除了在机器翻译中使用外，attention 机制还被用于 GAN 等模型中。

《Adam: A Method for Stochastic Optimization》

论文链接：https://arxiv.org/abs/1412.6980（被引用量 34082）

Adam 由于其易微调的特性而被广泛使用。它基于对每个参数的不同学习率进行适应这种思想。虽然近来有对 Adam 性能提出质疑的论文出现，但它依然是深度学习中最受欢迎的目标函数。

年度荣誉提名：

1、《Decoupled Weight Decay Regularization》

论文地址：https://arxiv.org/abs/1711.05101

2、《RMSProp》

和 Adam 一样出名的目标函数。

论文地址 https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf*

2015：超越人类的 ResNet；神奇的批归一化

《Deep Residual Learning for Image Recognition》

论文链接：https://arxiv.org/abs/1512.03385(被引用量 34635)

Residual Block 结构。

大名鼎鼎的 ResNet，从 ResNet 开始，神经网络在视觉分类任务上的性能第一次超越了人类。这一方法赢得了 ImageNet 2015、以及 COCO 竞赛的冠军，也获得了 CVPR2016 的最佳论文奖：该研究的作者是何恺明、张祥雨、任少卿和孙剑。

最初 ResNet 的设计是用来处理深层 CNN 结构中梯度消失和梯度爆炸的问题，如今 Residual Block 已经成为了几乎所有 CNN 结构中的基本构造。

这个想法很简单：将输入（input）从卷积层的每个块添加到输出（output）。残差网络之后的启示是，神经网络不应分解为更多的层数，在最不理想的情况下，其他层可以简单设置为恒等映射（identity mapping）。但在实际情况中，更深层的网络常常在训练上遇到困难。残差网络让每一层更容易学习恒等映射，并且还减少了梯度消失的问题。

尽管并不复杂，但残差网络很大程度上优于常规的 CNN 架构，尤其在应用于更深层的网络上时。

几种 CNN 之间的对比。

众多 CNN 架构都在争夺「头把交椅」，以下是一部分具有代表意义的样本：

Inceptionv1 结构。

年度荣誉提名：

1、《Going Deeper with Convolutions》

论文链接: https://arxiv.org/abs/1409.4842

2、《Very Deep Convolutional Networks for Large-Scale Image Recognition》

论文链接: https://arxiv.org/abs/1409.1556

3、《Neural Ordinary Differential Equations》

论文链接: https://arxiv.org/abs/1806.07366（NIPS 2018 最佳论文奖）

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift（批归一化）》

论文链接：https://arxiv.org/abs/1502.03167（14384 次引用）

批归一化（Batch normalization）是如今几乎所有神经网络的主流趋势。批归一基于另外一个简单但是很棒的想法：在训练过程中保持均值和方差统计，借此将 activation 的范围变换为零均值和单位方差。

关于批归一化效果的确切原因还未有定论，但从实践上说确实有效的。

年度荣誉提名：

不同归一化技术的可视化呈现。

1、《层归一化（Layer Normalization）》

论文链接：https://arxiv.org/abs/1607.06450

2、《实例归一化（Instance Normalization）》

论文链接：https://arxiv.org/abs/1607.08022

3、《组归一化（Group Normalization）》

论文链接：https://arxiv.org/abs/1803.08494

2016 年：攻陷最复杂的游戏——AlphaGo

登上 Nature 的 AlphaGo 论文《Mastering the game of Go with deep neural networks and tree search》

论文链接：https://www.nature.com/articles/nature16961（被引用量 6310）

很多人对于现代 AI 的理解始于 DeepMind 的围棋程序 AlphaGo。AlphaGo 研究项目始于 2014 年，目的是为了测试一个使用深度学习的神经网络如何在 Go 上竞争。

AlphaGo 比以前的 Go 程序有了显着的改进，在与其他可用围棋程序（包括 Crazy Stone 和 Zen）的 500 场比赛中，在单台计算机上运行的 AlphaGo 赢得了除一个之外的所有胜利，而运行在多台计算机上的 AlphaGo 赢得了与其他 Go 程序对战的所有 500 场比赛，在与单台计算机上运行的 AlphaGo 比赛中赢下了 77％的对阵。2015 年 10 月的分布式版本使用了 1,202 个 CPU 和 176 个 GPU，当时它以 5: 0 的比分击败了欧洲围棋冠军樊麾（职业 2 段选手），轰动一时。

这是计算机围棋程序第一次在全局棋盘（19 × 19）且无让子的情况下击败了人类职业棋手。2016 年 3 月，通过自我对弈进行练习的加强版 AlphaGo 在比赛中以 4: 1 击败了世界围棋冠军李世石，成为第一个在无让子情况下击败围棋职业九段棋手的计算机程序，载入史册。赛后，AlphaGo 被韩国棋院授予名誉职业九段的称号。

年度荣誉提名：

1、DeepMind 的另一篇 AlphaGo Nature 论文《Mastering the game of Go without human knowledge》

论文链接：https://www.nature.com/articles/nature24270

作为 AlphaGo 的后继版本，2017 年 10 月，DeepMind 发布最新强化版的 AlphaGo Zero，这是一个无需用到人类专业棋谱的版本，比之前的版本都强大。通过自我对弈，AlphaGo Zero 经过三天的学习就超越了 AlphaGo Lee 版本的水平，21 天后达到 AlphaGo Maseter 的实力，40 天内超越之前所有版本。

2017 年：几乎人人都用的 Transformer

《Attention Is All You Need》

论文链接：https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf（被引用量 5059）

著名的 Transformer 架构出现了。2017 年 6 月，谷歌宣布又在机器翻译上更进了一步，实现了完全基于 attention 的 Transformer 机器翻译网络架构，并且还在 WMT 2014 的多种语言对的翻译任务上超越了之前 Facebook 的成绩，实现了新的最佳水平。

在编码器-解码器配置中，显性序列显性转导模型（dominant sequence transduction model）基于复杂的 RNN 或 CNN。表现最佳的模型也需通过注意力机制（attention mechanism）连接编码器和解码器。

谷歌提出了一种新型的简单网络架构——Transformer，它完全基于注意力机制，彻底放弃了循环和卷积。两项机器翻译任务的实验表明，这些模型的翻译质量更优，同时更并行，所需训练时间也大大减少。新的模型在 WMT 2014 英语转德语的翻译任务中取得了 BLEU 得分 28.4 的成绩，领先当前现有的最佳结果（包括集成模型）超过 2 个 BLEU 分值。在 WMT 2014 英语转法语翻译任务上，在 8 块 GPU 上训练了 3.5 天之后，新模型获得了新的单模型顶级 BLEU 得分 41.0，只是目前文献中最佳模型训练成本的一小部分。

Transformer 在其他任务上也泛化很好，把它成功应用到了有大量训练数据和有限训练数据的英语组别分析上。

《Neural Architecture Search with Reinforcement Learning》

论文链接：https://openreview.net/forum?id=r1Ue8Hcxg（被引用量 1186）

神经结构搜索（NAS）表示自动设计人工神经网络（ANN）的过程，人工神经网络是机器学习领域中广泛使用的模型。NAS 的各种方法设计出的神经网络，其性能与手工设计的架构相当甚至更优越。可以根据搜索空间，搜索策略和性能评估策略三个方面对 NAS 的方法进行分类。其他方法，如《Regularized Evolution for Image Classifier Architecture Search》（即 AmoebaNet）使用了进化算法。

2018 年：预训练模型大热

当然是谷歌的 NLP 预训练模型 BERT：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》，这篇论文现在已经有 3025 次引用量了。

论文链接：https://arxiv.org/abs/1810.04805

本文介绍了一种新的语言表征模型 BERT——来自 Transformer 的双向编码器表征。与最近的语言表征模型不同，BERT 旨在基于所有层的左、右语境来预训练深度双向表征。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型，其性能超越许多使用任务特定架构的系统，刷新了 11 项 NLP 任务的当前最优性能记录。

BERT 与 GPT-2 和 ELMo 的模型结构对比。

年度荣誉提名：

自 BERT 被提出以来，基于 Transformer 的语言模型呈井喷之势。这些论文尚需时间考验，还很难说哪一个最具影响力。

1、《Deep contextualized word representations》

论文链接：https://arxiv.org/abs/1802.05365

2、《Improving Language Understanding by Generative Pre-Training》

论文链接：https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

3、《Language Models are Unsupervised Multitask Learners》——即 OpenAI 在 2 月份推出的，参数量高达 15 亿的预训练模型 GPT-2。

论文链接：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

4、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》

以往的 Transformer 网络由于受到上下文长度固定的限制，学习长期以来关系的潜力有限。本文提出的新神经架构 Transformer-XL 可以在不引起时间混乱的前提下，可以超越固定长度去学习依赖性，同时还能解决上下文碎片化问题。

论文链接：https://arxiv.org/abs/1901.02860

5、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》

BERT 带来的影响还未平复，CMU 与谷歌大脑 6 月份提出的 XLNet 在 20 个任务上超过了 BERT 的表现，并在 18 个任务上取得了 SOTA。

论文链接：https://arxiv.org/abs/1906.08237

6、《Neural Machine Translation of Rare Words with Subword Units》

论文链接：https://arxiv.org/abs/1508.07909

2019 年：深度学习的原理改进

论文《Deep Double Descent: Where Bigger Models and More Data Hurt》，本文讨论的 Double Descent 现象与经典机器学习和现代深度学习中的流行观点背道而驰。

论文链接：https://arxiv.org/abs/1912.02292

在本文中研究者证明，各种现代深度学习任务都表现出「双重下降」现象，并且随着模型尺寸的增加，性能首先变差，然后变好。此外，他们表明双重下降不仅作为模型大小的函数出现，而且还可以作为训练时间点数量的函数。研究者通过定义一个新的复杂性度量（称为有效模型复杂性，Effective Model Complexity）来统一上述现象，并针对该度量推测一个广义的双重下降。此外，他们对模型复杂性的概念使其能够确定某些方案，在这些方案中，增加（甚至四倍）训练样本的数量实际上会损害测试性能。

来自 MIT CSAIL 研究者的论文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》，它也获得了 ICLR 2019 的最佳论文奖。

论文链接：https://arxiv.org/abs/1803.03635

研究者们发现，标准的神经网络剪枝技术会自然地发现子网络，这些子网络经过初始化后能够有效进行训练。基于这些结果，研究者提出了「彩票假设」（lottery ticket hypothesis）：密集、随机初始化的前馈网络包含子网络（「中奖彩票」），当独立训练时，这些子网络能够在相似的迭代次数内达到与原始网络相当的测试准确率。

未来？

因为深度学习和基于梯度的神经网络出现技术突破，过去十年是人工智能高速发展的一段时期。这很大程度上是因为芯片算力的显著提高，神经网络正在变得越来越大，性能也越来越强。从计算机视觉到自然语言处理，新的方法已经大面积取代了传统的 AI 技术。

但是神经网络也有其缺点：它们需要大量已标注数据进行续联，无法解释自身的推断机制，难以推广到单个任务之外。不过因为深度学习的推动，AI 领域快速发展，越来越多的研究者正在致力于应对这些挑战。

在未来的几年里，人们对于神经网络的理解还会不断增加。人工智能的前景还是一片光明：深度学习是 AI 领域里最有力的工具，它会使我们进一步接近真正的智能。

让我们期待 2020 年的新成果吧。

参考链接：https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/

入门深度学习预训练模型BERTTransformerAlphaGo批归一化ResNetStyleGANImageNetReLU

相关技术

基于区域的卷积神经网络

来源：个人主页 Ren, S.

李飞飞人物

李飞飞，斯坦福大学计算机科学系教授，斯坦福视觉实验室负责人，斯坦福大学人工智能实验室（SAIL）前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌，担任谷歌云AI/ML首席科学家。2018年9月，返回斯坦福任教，现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启，李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人，Christopher Manning接任该职位。

来源：个人主页维基百科

孙剑人物

孙剑，男，前微软亚研院首席研究员，现任北京旷视科技有限公司（Face++）首席科学家、旷视研究院院长。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇，两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类，检测和定位，MS COCO 检测和分割) ，其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

来源：个人页面百度百科 Sun, J

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

深度强化学习技术

强化学习（Reinforcement Learning）是主体（agent）通过与周围环境的交互来进行学习。强化学习主体（RL agent）每采取一次动作（action）就会得到一个相应的数值奖励（numerical reward），这个奖励表示此次动作的好坏。通过与环境的交互，综合考虑过去的经验（exploitation）和未知的探索（exploration），强化学习主体通过试错的方式（trial and error）学会如何采取下一步的动作，而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励（accumulated reward）。一般来说，真实世界中的强化学习问题包括巨大的状态空间（state spaces）和动作空间（action spaces），传统的强化学习方法会受限于维数灾难（curse of dimensionality）。借助于深度学习中的神经网络，强化学习主体可以直接从原始输入数据（如游戏图像）中提取和学习特征知识，然后根据提取出的特征信息再利用传统的强化学习算法（如TD Learning，SARSA，Q-Learnin）学习控制策略（如游戏策略），而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

来源：Scholarpedia

激活函数技术

在计算网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

来源：维基百科 Google ML glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

来源：Stanford NLP

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

剪枝技术

剪枝顾名思义，就是删去一些不重要的节点，来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用，如：决策树，神经网络，搜索算法,数据库的设计等。在决策树和神经网络中，剪枝可以有效缓解过拟合问题并减小计算复杂度；在搜索算法中，可以减小搜索范围，提高搜索效率。

来源：Wikipedia

学习率技术

在使用不同优化器（例如随机梯度下降，Adam）神经网络相关训练中，学习速率作为一个超参数控制了权重更新的幅度，以及训练的速度和精度。学习速率太大容易导致目标（代价）函数波动较大从而难以找到最优，而弱学习速率设置太小，则会导致收敛过慢耗时太长

来源：Liu, T. Y. (2009). Learning to rank for information retrieval. Foundations and Trends® in Information Retrieval, 3(3), 225-331. Wikipedia

导数技术

导数（Derivative）是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x_0上产生一个增量Δx时，函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在，a即为在x0处的导数，记作f'(x_0) 或 df(x_0)/dx。

来源：百度百科

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

word2vec技术

Word2vec，为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。Word2vec为托马斯·米科洛夫（Tomas Mikolov）在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

WGAN技术

就其本质而言，任何生成模型的目标都是让模型（习得地）的分布与真实数据之间的差异达到最小。然而，传统 GAN 中的判别器 D 并不会当模型与真实的分布重叠度不够时去提供足够的信息来估计这个差异度——这导致生成器得不到一个强有力的反馈信息（特别是在训练之初），此外生成器的稳定性也普遍不足。 Wasserstein GAN 在原来的基础之上添加了一些新的方法，让判别器 D 去拟合模型与真实分布之间的 Wasserstein 距离。Wassersterin 距离会大致估计出「调整一个分布去匹配另一个分布还需要多少工作」。此外，其定义的方式十分值得注意，它甚至可以适用于非重叠的分布。

来源：机器之心 Wasserstein GAN

层归一化技术

深度神经网络的训练是具有高度的计算复杂性的。减少训练的时间成本的一种方法是对神经元的输入进行规范化处理进而加快网络的收敛速度。层规范化是在训练时和测试时对数据同时进行处理，通过对输入同一层的数据进行汇总，计算平均值和方差，来对每一层的输入数据做规范化处理。层规范化是基于批规范化进行优化得到的。相比较而言，批规范化是对一个神经元输入的数据以mini-batch为单位来进行汇总，计算平均值和方法，再用这个数据对每个训练样例的输入进行规整。层规范化在面对RNN等问题的时候效果更加优越，也不会受到mini-batch选值的影响。

来源：Ba J L, Kiros J R, Hinton G E. Layer Normalization

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

Transformer-XL技术

Transformer-XL 预训练模型是对 Transformer 及语言建模的修正，这项前沿研究是2019年1月份公布。一般而言，Transformer-XL 学习到的长期依赖性比标准 Transformer 学到的长 450%，无论在长序列还是短序列中都得到了更好的结果，而且在评估时比标准 Transformer 快 1800 多倍。

来源：机器之心

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型，包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍，该模型是对 GPT 模型的直接扩展，在超出 10 倍的数据量上进行训练，参数量也多出了 10 倍。在性能方面，该模型能够生产连贯的文本段落，在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下，能够做到初步的阅读理解、机器翻译、问答和自动摘要。

来源：OpenAI博客

语言模型技术

统计式的语言模型是借由一个几率分布，而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。

来源：维基百科

雅达利游戏技术

雅达利（英语：Atari，NASDAQ：ATAR）是美国诺兰·布什内尔在1972年成立的电脑公司，街机、家用电子游戏机和家用电脑的早期拓荒者。不少诸如《乓》、《爆破彗星》等的经典早期电脑游戏的发行，使雅达利在电子游戏历史上举足轻重。经典游戏主机为1977年发行的雅达利2600。

来源：wiki

生成对抗技术

生成对抗是训练生成对抗网络时，两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

来源：wiki