2019/02/02 14:08

Transformer在进化！谷歌大脑用架构搜索方法找到Evolved Transformer

谷歌大脑最新研究提出通过神经架构搜索寻找更好的 Transformer，以实现更好的性能。该搜索得到了一种名为 Evolved Transformer 的新架构，在四个成熟的语言任务（WMT 2014 英德、WMT 2014 英法、WMT 2014 英捷及十亿词语言模型基准（LM1B））上的表现均优于原版 Transformer。

在过去的几年里，神经架构搜索领域取得了极大进展。通过强化学习和进化得到的模型已经被证明可以超越人类设计的模型（Real et al., 2019; Zoph et al., 2018）。这些进展大多聚焦于改善图像模型，但也有一些研究致力于改善序列模型（Zoph & Le, 2017; Pham et al., 2018）。但在这些研究中，研究者一直致力于改良循环神经网络（RNN），该网络长期以来一直用于解决序列问题（Sutskever et al., 2014; Bahdanau et al., 2015）。

然而，最近的研究表明，RNN 并非解决序列问题的最佳方法。由于卷积网络（如卷积 Seq2Seq）（Gehring et al., 2017）和完全注意力网络（如 Transformer）（Vaswani et al., 2017）的成功，前馈网络已经可以用于解决 seq2seq 任务，它的主要优势在于训练速度比 RNN 快，训练起来也更加容易。

本文旨在检验神经架构搜索方法的使用，为 seq2seq 任务设计更好的前馈架构。具体来说，谷歌大脑研究人员使用锦标赛选择（tournament selection）架构搜索，从 Transformer（被认为是当前最佳、应用最广的架构）演化出更好、更高效的架构。为了实现这一点，研究者构建了一个反映前馈 seq2seq 模型最新进展的搜索空间，开发了一种名为渐进式动态障碍（progressive dynamic hurdle，PDH）的方法，借助该方法可以直接在计算要求较高的 WMT 2014 英德翻译任务上执行搜索。该搜索得到了一种名为 Evolved Transformer 的新架构，在四个成熟的语言任务（WMT 2014 英德、WMT 2014 英法、WMT 2014 英捷及十亿词语言模型基准（LM1B））上的表现均优于原版 Transformer。在用大型模型进行的实验中，Evolved Transformer 的效率（FLOPS）是 Transformer 的两倍，而且质量没有损失。在更适合移动设备的小型模型（参数量为 7M）中，Evolved Transformer 的 BLEU 值高出 Transformer 0.7。

论文：The Evolved Transformer

论文链接：https://arxiv.org/abs/1901.11117

摘要：近期研究强调了 Transformer 在解决序列任务中的优势。同时，神经架构搜索已经发展到可以超越人类设计的模型。本文的目的在于利用架构搜索找到更好的 Transformer 架构。我们首先根据前馈序列模型的最新进展构建了一个大的搜索空间，然后运行进化架构搜索，用 Transformer 为我们的初始种群（initial population）排序。为了在计算成本高昂的 WMT 2014 英德翻译任务上有效地运行此搜索，我们开发了渐进式动态障碍方法，该方法允许我们将更多的资源动态分配给更有潜力的候选模型。我们在实验中发现的架构——Evolved Transformer——在四个公认的语言任务（WMT 2014 英德、WMT 2014 英法、WMT 2014 英捷及十亿词语言模型基准（LM1B））上的表现都优于 Transformer。在用大型模型进行的实验中，Evolved Transformer 的效率（FLOPS）是 Transformer 的两倍，而且质量没有损失。在更适合移动设备的小型模型（参数量为 7M）中，Evolved Transformer 在 WMT'14 英德任务中的 BLEU 值高出 Transformer 0.7。

方法

研究者采用了基于进化的架构搜索，因为该方法简单，而且已经被证明在资源有限的情况下比强化学习更加高效（Real et al., 2019）。他们使用与 Real 等人（2019）所用算法相同的锦标赛选择算法算法，但省略了老式的正则化。算法大致描述如下。

锦标赛选择进化架构搜索首先定义描述神经网络架构的基因编码；然后，从基因编码空间中随机采样创建一个初始种群来创建个体。基于这些个体在目标任务上描述的神经网络的训练为它们分配适应度（fitness），再在任务的验证集上评估它们的表现。然后，研究者对种群进行重复采样，以产生子种群，从中选择适应度最高的个体作为亲本（parent）。被选中的亲本使自身基因编码发生突变（编码字段随机改变为不同的值）以产生子模型。然后，通过在目标任务上的训练和评估，像对待初始种群一样为这些子模型分配适应度。当适应度评估结束时，再次对种群进行抽样，子种群中适应度最低的个体被移除，也就是从种群中移除。然后，新评估的子模型被添加到种群中，取代被移除的个体。这一过程会重复进行，直到种群中出现具备高度适应度的个体，这在本文中表示性能良好的架构。

结果

在此章节中，我们首先对自己的搜索方法、动态进化障碍以及其他进化搜索方法的表现做了基准测试。我们然后设置了 Evolved Transformer 以及与 Transormer 比对的基准。

表 1：各种搜索设置的顶级模型验证困惑度。选择出的模型数量平衡了资源消耗。

图 3：Transformer 和 Evolved Transformer 的架构单元。架构最值得注意的四个方面是：1. 宽泛的深度可分离卷积；2. 门控线性单元；3. 分支结构；4.swish 激活函数。ET 编码器和解码器分别独立开发宽卷积的分支下段。在两个架构中，后一段都和 Transformer 相同。

图 4：Evolved Transformer 和 Transformer 在各种 FLOPS 大小上的表现对比。

表 2：在 8 块英伟达 P100GPU 上的编码器-解码器 WMT'14 对比。基于可用资源，每个模型训练 10-15 次。困惑度在验证集上进行计算，BLEU 在测试集上计算。

表 3：在 16 块 TPU v.2 上训练的 Transformer 和 ET 的对比。在 Translation 任务上，困惑度是在验证集上计算的，BLEU 是在测试集上计算的。对 LM1B 任务，困惑度是在测试集上计算的。ET 在所有任务上展现出了至少一个标准偏差的一致性改进。在基础大小上，它超越了所有的搜索，在英法和英捷任务上的 BLEU 值提高了 0.6。

表 4：突变消除。前 5 列描述了每种突变。在 WMT『14En-De 验证集上强化的 Transormer 和 ET 困惑度在第 6 和第 7 列中，第 7、8 列展示了无增强基础模型困惑度均值和增强模型困惑度均值之间的不同。红色单元表示相对应的突变损害整体表现的证据。绿色单元表示突变有益于整体表现的相对应证据

理论Transformer神经架构搜索谷歌大脑

相关技术

自然语言处理 Embodied AI

激活函数技术

在计算网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

来源：维基百科 Google ML glossary

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

验证集技术

验证数据集是用于调整分类器超参数（即模型结构）的一组数据集，它有时也被称为开发集(dev set)。

来源：Wikipedia

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科