2018/06/07 14:19

路张倩参与

NAACL 2018最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

不久之前，NAACL 2018 最佳论文公布，机器之心曾介绍了其中一篇（共四篇）。此文介绍了来自艾伦人工智能研究所和华盛顿大学的研究者所著论文《Deep contextualized word representations》，该研究提出了一种新型深度语境化词表征，可对词使用的复杂特征（如句法和语义）和词使用在语言语境中的变化进行建模（即对多义词进行建模）。这些表征可以轻松添加至已有模型，并在 6 个 NLP 问题中显著提高当前最优性能。

1 引言

预训练词表征（Mikolov et al., 2013; Pennington et al., 2014）是很多神经语言理解模型的关键部分。然而，学习高质量词表征非常有难度。它们应该完美建模单词使用方面的复杂特征（如句法和语义），以及单词使用在不同语言环境下的变化（即建模一词多义）。本论文介绍了一种新型深度语境化词表征（deep contextualized word representation），可以直接应对这些挑战，且这种表征能够轻松整合进现有模型，极大地提升大量有难度的语言理解问题中每个用例的当前最优性能。

本论文提出的表征与传统的词嵌入不同，每个 token 分配一个表征——即整个输入句子的函数。研究者使用从双向 LSTM 中得到的向量，该 LSTM 是使用成对语言模型（LM）目标在大型文本语料库上训练得到的。因此，该表征叫作 ELMo（Embeddings from Language Models）表征。与之前学习语境化词向量的方法（Peters et al., 2017; McCann et al., 2017）不同，ELMo 表征是深层的，即它们是 biLM 所有内部层的函数。具体来说，对于每个任务，学习堆叠在每个输入单词上的向量线性组合，这可以显著提升性能，效果优于仅使用 LSTM 顶层的表征。

用这种方式组合内部状态可以带来丰富的词表征。研究者使用内在评价进行评估，结果显示更高级别的 LSTM 状态捕捉词义的语境依赖方面（如它们不经修改就可以执行监督式词义消歧任务，且表现良好），而较低级别的状态建模句法结构（如它们可用于词性标注任务）。同时揭示所有这些信号是非常有益的，可以帮助学得的模型选择对每个任务最有帮助的半监督信号。

大量实验证明 ELMo 表征在实践中效果优异。研究者首先展示可在六个不同且有难度的语言理解问题上（包括文本蕴涵、问答和情感分析等），将 ELMo 表征轻松添加至现有模型。添加 ELMo 表征可以显著提高每个用例中的当前最优性能，包括将相对误差降低 20%。对于允许直接对比的任务，ELMo 优于 CoVe（McCann et al., 2017），后者使用神经机器翻译编码器计算语境化表征。最后，对 ELMo 和 CoVe 的分析结果显示深层表征优于仅从 LSTM 顶层获取的表征。本研究中训练的模型和代码已公开，研究者期望 ELMo 为其他 NLP 问题提供类似的帮助。

3. ELMo：来自语言模型的嵌入

与广泛使用的词嵌入（Pennington et al., 2014）不同，ELMo 词表征是整个输入句子的函数。这些表征是在两层 biLM 上使用字符卷积计算出来的，作为内部网络状态的线性函数（如 3.2 所述）。这种设定允许我们进行半监督学习，在学习中，biLM 进行大规模的预训练且能够轻易整合进大量现有神经 NLP 架构。

3.2 ELMo

ELMo 是 biLM 中间层表征的任务特定组合。对于每个 token t_k，L-layer biLM 计算一组表征（包含 2L + 1 个）

公式中的是 token 层，对于每个 biLSTM 层，有。为了包含在下游模型中，ELMo 将 R 中的所有层折叠成单个向量，。在最简单的情况下，ELMo 只选择顶层，，如 TagLM（Peters et al., 2017）和 CoVe（McCann et al., 2017）。简言之，研究者计算所有 biLM 层的任务特定权重：

（1）中，s^task 是 softmax 归一化权重，标量参数 γ^task 允许任务模型扩展至整个 ELMo 向量。在实践中，γ 对优化过程有益（详见补充材料）。鉴于每个 biLM 层的激活函数都有不同的分布，在一些情况下，γ 还有助于在加权之前对每个 biLM 层应用层归一化（Ba et al., 2016）。

4 评估

表 1：ELMo 增强神经模型和当前最优（SOTA）单个模型基线在六个 NLP 基准任务上的测试集性能对比。不同任务的性能指标不同：对于 SNLI 和 SST-5 是准确率，对于 SQuAD、SRL 和 NER 是 F1，对于 Coref 是平均 F1。由于 NER 和 SST-5 的测试集较小，研究者的报告结果是使用不同的随机种子进行的五次运行的均值和标准差。「INCREASE」列是基线模型的绝对和相对改进。

图 1：基线和 ELMo 在 SNLI 和 SRL 上的性能对比，训练集规模的变化幅度是 0.1% 到 100%。

论文：Deep contextualized word representations

论文链接：https://arxiv.org/pdf/1802.05365.pdf

摘要：在本论文中，我们介绍了一种新型深度语境化词表征，可对词使用的复杂特征（如句法和语义）和词使用在语言语境中的变化进行建模（即对多义词进行建模）。我们的词向量是深度双向语言模型（biLM）内部状态的函数，在一个大型文本语料库中预训练而成。本研究表明，这些表征能够被轻易地添加到现有的模型中，并在六个颇具挑战性的 NLP 问题（包括问答、文本蕴涵和情感分析）中显著提高当前最优性能。此外，我们的分析还表明，揭示预训练网络的深层内部状态至关重要，可以允许下游模型综合不同类型的半监督信号。

理论NAACL HLT 2018艾伦人工智能研究NLP

相关数据

半监督学习技术

半监督学习属于无监督学习（没有任何标记的训练数据）和监督学习（完全标记的训练数据）之间。许多机器学习研究人员发现，将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理（例如转录音频片段）或物理实验（例如，确定蛋白质的3D结构或确定在特定位置处是否存在油）。因此与标签处理相关的成本可能使得完全标注的训练集不可行，而获取未标记的数据相对便宜。在这种情况下，半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣，也是人类学习的典范。

来源：Wikipedia

激活函数技术

在计算网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

来源：维基百科 Google ML glossary

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

词义消歧技术

在计算机语言学，词义消歧(WSD) 是一个自然语言处理和本体论的开放问题。歧义与消歧是自然语言理解中最核心的问题，在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象，消歧即指根据上下文确定对象语义的过程。词义消歧即在词语层次上的语义消歧。

来源：维基百科

神经机器翻译技术

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译（NMT）的诞生；神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型，而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外，RNN 应该还能得到无限长句子背后的信息，从而解决所谓的「长距离重新排序（long distance reordering）」问题。

来源：机器之心

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。

来源：Wikipedia

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

层归一化技术

深度神经网络的训练是具有高度的计算复杂性的。减少训练的时间成本的一种方法是对神经元的输入进行规范化处理进而加快网络的收敛速度。层规范化是在训练时和测试时对数据同时进行处理，通过对输入同一层的数据进行汇总，计算平均值和方差，来对每一层的输入数据做规范化处理。层规范化是基于批规范化进行优化得到的。相比较而言，批规范化是对一个神经元输入的数据以mini-batch为单位来进行汇总，计算平均值和方法，再用这个数据对每个训练样例的输入进行规整。层规范化在面对RNN等问题的时候效果更加优越，也不会受到mini-batch选值的影响。

来源：Ba J L, Kiros J R, Hinton G E. Layer Normalization

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源：Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科