2019/10/29 11:25

Michael Ye作者吴金笛、林亦霖校对于腾凯编辑陈雨琳翻译

最新NLP架构的直观解释：多任务学习– ERNIE 2.0（附链接）

本文将介绍多任务学习。

科技巨头百度于今年早些时候发布了其最新的NLP架构ERNIE 2.0，在GLUE基准测试中的所有任务上得分均远高于XLNet和BERT。NLP的这一重大突破利用了一项被称为“连续增量式多任务学习”的创新技术。在本文中，我们将直观地解释“连续多任务学习”的概念，构建ERNIE 2.0模型，并解决有关ERNIE 2.0结果的疑虑。

预备知识：

神经网络
梯度下降
预训练&微调

（请看这个视频：https://bit.ly/2lIADHm）

什么是多任务学习？

为了理解多任务学习，让我们从单任务学习示例开始：为了简单起见，想象一下在NLP（自然语言处理）预训练中使用的简单前馈神经网络。任务是预测句子中的下一个单词。

输入字符串是“ I like New”，正确的输出是字符串“ York”。

训练过程（梯度下降）可以看成是滚下山坡的球：这里的地形是损失函数（也称为成本/误差函数），球的位置代表所有参数的当前值（权重和偏差）。

此图仅有两个维度以用于可视化目的。如果这个比喻让你无法理解，请查看对梯度下降的理解：https://bit.ly/2C080IK。现在，如果你希望神经网络执行多个任务怎么办？例如，预测句子中的下一个单词并进行情感分析（预测态度分为正面，中立或负面。例如，“你很棒”被归为正面）。

实际上，你可以直接加上另一个输出！

输入为“I like New”，下一个单词预测为“York”，情感预测为正面。

然后，将两个输出的损失相加并求平均值，最后的损耗用于训练网络，因为这样就可以将两个任务的损失都降至最低。

这次，可以将训练过程可视化为将两种地形（两个损失函数）加在一起以获得一个新的地形（最终损失函数），然后执行梯度下降。

Figure 1: Calculating the final loss function and performing gradient descent

图1：计算最终损失函数并执行梯度下降

这就是多任务学习的本质-训练一个神经网络执行多个任务，以便该模型可以开发语言的通用表达形式，而不是将自身限制到一个特定的任务上。实际上，ERNIE 2.0训练其神经网络执行7个任务，后面将对此进行详细说明。

多任务学习在自然语言处理中尤其有用，因为预训练过程的目标是“理解”语言。同样，在语言理解方面，人类也会执行多项任务。

我们已经解释了多任务学习，而ERNIE 2.0架构中还有另一个关键概念，那就是……

持续学习

训练神经网络面临的一个挑战是这样一个事实：局部最小值并不总是全局最小值。

作为示例，让我们看一下上个例子种最终损失函数的形态-如果我们对权重进行不同的初始化，即将球放置在其他位置，会怎么样？

图 2这次的局部最小值远非理想值。为解决此问题并找到更好的局部最小值，使得该最小值更可能是全局最小值，ERNIE 2.0提出了“持续学习”的概念。

不是训练所有任务（图2），而是按顺序训练它们：

在任务1上进行训练
使用上一步中的参数，并在任务1、2上进行训练
使用上一步中的参数，并在任务1、2、3上进行训练，以此类推…

这是受人类启发的，因为我们是逐步学习而不是一次学习多个任务。之所以行之有效，是因为如果达到任务1的全局最小值，那么将两个损失函数加在一起时，与使用完全随机参数开始时相比，更有可能获得全局最小值（图3）。

图 3持续学习还可以轻松添加新任务-只需在序列中添加一个额外的步骤即可（例如，第3步：训练任务1、2、3）。但是，请记住，必须训练所有先前的任务以及新任务，以确保将损失函数相加。

此外，在ERNIE 2.0中，Adam Optimizer用于保证有更大机会定位到全局最小值，但这不在本文的讨论范围之内。如果您想了解更多信息，请访问以下链接：

https://arxiv.org/pdf/1412.6980.pdf。

ERINE 2.0模型

于是，我们终于可以构建ERINE2.0模型了！

这张图在论文4.2.3节

让我们从输入开始：输入包含token embedding, sentence embedding, sentence embedding, position embedding, task embedding。如果您没有听说过embedding，它们实际上是一种表示形式，可以将人类可以理解的内容转换为机器可以理解的内容。（在此处了解更多信息：https://bit.ly/2k52nWt）

接下来，将其输入可以是任何形式神经网络的“编码器”中。当然，如果你想要在自然语言处理种获得最好的效果，就应该使用RNN或者一种Transformer。

ERINIE 2.0使用的transformer与BERT和XLNET相同。

最后，输出结果包含了7个任务的输出，分别是：

知识遮盖
标记-文档关系
大写预测
句子重新排序
句子距离
话语关系
相关性

这些任务是专门挑选用来学习语言的词汇，句法（结构）和语义（含义）信息的。阅读论文第4.2节，以详细了解每个任务。

训练过程基本上与我们之前在持续学习部分演示的示例相同：

先训练任务1，然后任务1&2，然后任务1&2&3，以此类推……直到训练完7个任务。

图 4

如图4所示，当任务在训练过程中处于非活动状态时，其损失函数基本上始终为零。

另外，ERNIE 2.0设置中的一个不同之处是最终对损失进行平均（而不是求和）。

有关ERNIE 2.0结果的疑虑

ERNIE 2.0在GLUE基准测试的每个任务中都击败了所有以前的模型，例如XLNet和BERT。虽然该论文暗示该开创性的结果是由持续多任务学习引起的，但尚无模型简化测试来证明这一点。持续多任务学习之外的某些因素可能在击败XLNET和BERT方面发挥了关键作用：

使用了更多数据来训练模型（Reddit，发现数据…）。但是，这在一定程度上是不可避免的。由于多任务学习的训练目标更多，因此需要更多的数据。
该神经网络在PaddlePaddle中实现
更重要的是，为了将ERNIE 2.0的结果归因于“持续多任务学习”，需要回答以下问题：
多任务学习对结果有多大影响？
持续学习对结果有多大影响？如果一次训练了所有七个任务而不是依次进行会怎么样？
任务的顺序有影响吗？

结论

总而言之，ERNIE 2.0引入了“连续多任务学习”的概念，并且在所有NLP任务中均成功胜过XLNET和BERT。可以说连续多任务学习是开创性结果中的第一大因素，但仍然有许多问题需要解决。

当然，本文不会涵盖论文的全部主题，例如具体的实验结果，也没有这个必要。本文只是对ERNIE 2.0核心概念进行了直观解释。如果您想全面了解ERNIE 2.0，请同时阅读论文！

论文:

“ERNIE 2.0: A Continual Pre-training Framework for Language Understanding”

作者:

Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang

链接:

https://arxiv.org/pdf/1512.03385.pdf

Interpolation in Autoencoders via an Adversarial Regularizer
Pre-training, Transformers, and Bi-directionality
Large-Scale Evolution of Image Classifiers

原文标题：

Multi-Task Learning – ERNIE 2.0: State-of-the-Art NLP Architecture Intuitively Explained

原文链接：

https://www.kdnuggets.com/2019/10/multi-task-learning-ernie-sota-nlp-architecture.html

THU数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

入门NLP多任务学习ERNIE

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。要使用梯度下降找到函数的局部最小值，可以采用与当前点的函数梯度（或近似梯度）的负值成比例的步骤。如果采取的步骤与梯度的正值成比例，则接近该函数的局部最大值，被称为梯度上升。

来源：Vapnik V. N. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag.Wikipedia

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部，参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同，在它内部不会构成有向环。FNN由一个输入层、一个（浅层网络）或多个（深层网络，因此叫作深度学习）隐藏层，和一个输出层构成。每个层（除输出层以外）与下一层连接。这种连接是 FNN 架构的关键，具有两个主要特征：加权平均值和激活函数。

来源：机器之心

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

多任务学习技术

百度智能云机构

百度是全球最大的中文搜索引擎，是一家互联网综合信息服务公司，更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村，公司创始人李彦宏拥有“超链分析”技术专利，也使中国成为美国、俄罗斯、和韩国之外，全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com