2018/07/16 19:15

ACL 2018 | 腾讯AI Lab解读多篇入选长文

感谢阅读腾讯AI Lab微信号第31篇文章，本文将详解2018年NLP领域顶级学术会议ACL上，腾讯AI Lab入选5篇文章中的4篇长文。

第 56 届计算语言学协会年会 ACL于 7 月 15 至 20 日在澳大利亚墨尔本举办。今年共收到 1621 篇投递论文，其中长论文 1045 篇，短论文 576 篇。除去不合格和被驳回的论文，组委会在 1018 篇提交的长论文中接收 256 篇，在 526 篇提交的短论文中接收 125 篇，总体录取率为 24.7%。

这是腾讯 AI Lab 第二次参加ACL，共5篇论文入选（去年为3篇），涉及神经机器翻译、情感分类和自动评论等研究方向。下面将着重介绍其中4篇长文的研究内容。

此外，在近期结束的多个顶级学术会议中，腾讯AI Lab也入选多篇论文，位居国内企业前列，包括ICML 2018（16篇），CVPR 2018（21篇）和此前的NIPS 2017（8篇）。

1、通往鲁棒的神经网络机器翻译之路

Towards Robust Neural Machine Translation

论文地址：https://arxiv.org/abs/1805.06130

在神经机器翻译（NMT）中，由于引入了循环神经网络（RNN）和注意力机制，上下文中的每个词都可能影响模型的全局输出结果，这有些类似于“蝴蝶效应”。也就是说，NMT 对输入中的微小扰动极其敏感，比如将输入中某个词替换成其近义词就可能导致输出结果发生极大变化，甚至修改翻译结果的极性。针对这一问题，研究者在本论文中提出使用对抗性稳定训练来同时增强神经机器翻译的编码器与解码器的鲁棒性。

上图给出了该方法的架构示意，其工作过程为：给定一个输入句子 x，首先生成与其对应的扰动输入 x'，接着采用对抗训练鼓励编码器对于 x 和 x' 生成相似的中间表示，同时要求解码器端输出相同的目标句子 y。这样能使得输入中的微小扰动不会导致目标输出产生较大差异。

研究者在论文中提出了两种构造扰动输入的方法。第一种是在特征级别（词向量）中加入高斯噪声；第二种是在词级别中用近义词来替换原词。

研究表明，该框架可以扩展应用于各种不同的噪声扰动并且不依赖于特定的 NMT 架构。实验结果表明该方法能够同时增强神经机器翻译模型的鲁棒性和翻译质量，下表给出了在 NIST 汉语-英语翻译任务上的大小写不敏感 BLEU 分数。

可以看到，研究者使用极大似然估计（MLE）训练的 NMT 系统优于其它最好模型大约 3 BLEU。

2、Hyperdoc2vec：超文本文档的分布式表示

hyperdoc2vec: Distributed Representations of Hypertext Documents

论文地址：https://arxiv.org/abs/1805.03793

现实世界中很多文档都具有超链接的结构。例如，维基页面（普通网页）之间通过 URL 互相指向，学术论文之间通过引用互相指向。超文档的嵌入（embedding）可以辅助相关对象（如实体、论文）的分类、推荐、检索等问题。然而，针对普通文档的传统嵌入方法往往偏重建模文本/链接网络中的一个方面，若简单运用于超文档，会造成信息丢失。

本论文提出了超文档嵌入模型在保留必要信息方面应满足的四个标准，并且表明已有的方法都无法同时满足这些标准。这些标准分别为：

内容敏感（content awareness）：超文档的内容自然在描述该超文档方面起主要作用。

上下文敏感（context awareness）：超链接上下文通常能提供目标文档的总结归纳。

新信息友好度（newcomer friendliness）：对于没有被其它任何文档索引的文档，需要采用适当的方式得到它们的嵌入。

语境意图敏感（context intent awareness）：超链接周围的“evaluate ... by”这样的词通常指示了源超文档使用该引用的原因。

为此，研究者提出了一种新的嵌入模型hyperdoc2vec。不同于大多数已有方法，hyperdoc2vec 会为每个超文档学习两个向量，以表征其引用其它文档的情况和被引用的情况。因此，hyperdoc2vec 可以直接建模超链接或引用情况，而不损失其中包含的信息。下面给出了 hyperdoc2vec 模型示意图：

为了评估所学习到的嵌入，研究者在三个论文领域数据集以及论文分类和引用推荐两个任务上系统地比较了 hyperdoc2vec 与其它方法。模型分析和实验结果都验证了 hyperdoc2vec 在以上四个标准下的优越性。下表展示了在 DBLP 上的 F1 分数结果：

可以看到，添加了 DeepWalk 信息后基本都能得到更优的结果；而不管是否使用了 DeepWalk，hyperdoc2vec 的结果都是最优的。

3、TNet：面向评论目标的情感分类架构

Transformation Networks for Target-Oriented Sentiment Classification

论文地址：https://arxiv.org/abs/1805.01086

开源项目：https://github.com/lixin4ever/TNet

面向评论目标（opinion target）的情感分类任务是为了检测用户对于给定评论实体的情感倾向性。直观上来说，带注意机制的循环神经网络（RNN）很适合处理这类任务，以往的工作也表明基于这类模型的工作确实取得了很好的效果。

研究者在这篇论文中尝试了一种新思路，即用卷积神经网络（CNN）替代基于注意机制的RNN 去提取最重要的分类特征。由于 CNN 很难捕捉目标实体信息，所以研究者设计了一个特征变换组件来将实体信息引入到单词的语义表示当中。但这个特征变换过程可能会使上下文信息丢失。针对这一问题，研究者又提出了一种“上下文保留”机制，可将带有上下文信息的特征和变换之后的特征结合起来。

综合起来，研究者提出了一种名为目标特定的变换网络（TNet）的新架构，如下左图所示。其底部是一个 BiLSTM，其可将输入变换成有上下文的词表示（即 BiLSTM 的隐藏状态）。其中部是 TNet 的核心部分，由 L 个上下文保留变换（CPT）层构成。最上面的部分是一个可感知位置的卷积层，其首先会编码词和目标之间的位置相关性，然后提取信息特征以便分类。

右图则展示了一个 CPT 模块的细节，其中有一个全新设计的 TST 组件，可将目标信息整合进词表示中。此外，其中还包含一个上下文保留机制。

研究者在三个标准数据集上评估了新提出的框架，结果表明新方法的准确率和 F1 值全面优于已有方法；下表给出了详细的实验结果。

本研究的相关代码已经开源。

4、兼具领域适应和情感感知能力的词嵌入学习

Learning Domain-Sensitive and Sentiment-Aware Word Embeddings

论文地址：https://arxiv.org/abs/1805.03801

词嵌入是一种有效的词表示方法，已被广泛用于情感分类任务中。一些现有的词嵌入方法能够捕捉情感信息，但是对于来自不同领域的评论，它们不能产生领域适应的词向量。另一方面，一些现有的方法可以考虑多领域的词向量自适应，但是它们不能区分具有相似上下文但是情感极性相反的词。

在这篇论文中，研究者提出了一种学习领域适应和情感感知的词嵌入（DSE）的新方法，可同时捕获词的情感语义和领域信息。本方法可以自动确定和生成领域无关的词向量和领域相关的词向量。模型可以区分领域无关的词和领域相关的词，从而使我们可以利用来自于多个领域的共同情感词的信息，并且同时捕获来自不同领域的领域相关词的不同语义。

在 DSE 模型中，研究者为词汇表中的每个词都设计了一个用于描述该词是领域无关词的概率的分布。这个概率分布的推理是根据所观察的情感和上下文进行的。具体而言，其推理算法结合了期望最大化（EM）方法和一种负采样方案，其过程如下算法 1 所示。

其中，E 步骤使用了贝叶斯规则来评估每个词的 zw（一个描述领域相关性的隐变量）的后验分布以及推导目标函数。而在 M 步骤中则会使用梯度下降法最大化该目标函数并更新相应的嵌入。

研究者在一个亚马逊产品评论数据集上进行了实验，下表给出了评论情感分类的实验结果：

实验结果表明，本工作提供了一个有效的学习兼具领域适应和情感感知能力的词嵌入的方法，并提高了在句子层面和词汇层面的情感分类任务的性能。

腾讯AI实验室

入门ACL 2018腾讯AI Lab

相关数据

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

神经机器翻译技术

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译（NMT）的诞生；神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型，而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外，RNN 应该还能得到无限长句子背后的信息，从而解决所谓的「长距离重新排序（long distance reordering）」问题。

来源：机器之心

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。要使用梯度下降找到函数的局部最小值，可以采用与当前点的函数梯度（或近似梯度）的负值成比例的步骤。如果采取的步骤与梯度的正值成比例，则接近该函数的局部最大值，被称为梯度上升。

来源：Vapnik V. N. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag.Wikipedia

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

来源：Wikipedia