EMNLP和CoNLL大会堪称自然语言处理(NLP)领域的年度盛宴。
每年,全球最顶尖的NLP研究者们会在这两个大会上展示最前沿的NLP科研成果。然而,动辄上千篇的论文却令很多关注NLP领域最新动态的小伙伴望而却步。
幸运的是,来自亚利桑那大学的NLP研究者Mithun Paul 精心挑选出了20余篇精彩论文,并逐一作出评价。
EMNLP和CoNLL 2018究竟出现了哪些重量级作品?让我们跟着Mithun的名单一起来读。
CoNLL
利用对抗正则化后的神经网络自然语言推断模型(NLI)来整合逻辑背景知识
https://aclanthology.coli.uni-saarland.de/papers/K18-1007/k18-1007
摘要:对抗样本作为机器学习模型的输入,旨在使模型出错。对抗样本有助于我们理解机器学习模型的缺点,并帮助我们找到对模型的合理性解释以及对模型正则化的方法。但是在NLP中,大多数样本的生成策略是通过使用已知的、预先指定的语义转换来生成输入文本,这就需要大量的人工操作,并且深入理解研究的问题和数据集。
在本文中,我们研究了在自然语言推断(NLI)中如何自动生成对抗样本,并保证这些样本违反给定的一阶逻辑约束。我们通过最大化度量违反约束条件的程度以及使用语言模型,来生成语句合理的样本,将识别这种对抗样本的问题转化为到组合优化问题。在此基础上,我们提出了对神经自然语言推断模型进行对抗正则化来整合背景知识的方法。结果表明,虽然所提出的方法并不总能改善SNLI和MultiNLI数据集的结果,但它显著并持续地提高了对抗数据集的预测准确性 - 相对改善高达79.6% - 同时大幅减少违反背景知识的数量。此外,我们展示了对抗样本在模型体系结构之间转移,并且所提出的对抗性训练过程提高了NLI模型对对抗样本的鲁棒性。
评论:将FOL规则纳入到基于神经网络的NLI模型训练过程是个巧妙的想法。 他们在损失函数的正则化中添加了“不一致性损失”项,用于衡量违背规则的程度。
BlackboxNLP专题讨论会
非常棒的专题讨论会。这个专题讨论会的会议记录如下:
http://aclweb.org/anthology/W18-5400
通过稀疏注意机制得到可解释的结构归纳法
http://aclweb.org/anthology/W18-5450
评论:通过强化神经网络产生稀疏概率使得神经网络更具可解释性,这可以追溯到输入中最相关部分。
理解基于卷积神经网络的文本分类
https://arxiv.org/pdf/1809.08037.pdf
摘要:本文分析了卷积神经网络(CNNs)处理文本的内部工作原理。用于计算机视觉的CNN可以通过将滤波器(filter)投影到图像空间来解释,但对于离散序列输入,CNN仍然无法很好的解释。 我们的目标是理解网络处理和文本分类的方法。本文研究了以下问题的常见假设:将滤波器(filter)和全局最大池化层(max-pooling)一起用作ngram检测器。本文发现filter可以通过使用不同的激活模式捕获ngrams的一些不同语义类,并且max-pooling会将关键的ngrams与其余ngrams分开。最后,本文以模型可解释性和预测可解释性(解释预测)的形式展示了研究结果中的实际用例情况(通过给每个过滤器推导出具体标识来解释已训练的模型,增加中可视化工具和NLP之间的联系)。
评论:确定CNN背后相关的n-grams。 直观上来说,涵盖信息的n-grams是根据它和相应的卷积滤波器的相关性来选择的。
利用规则归纳法对训练模型进行全局解释
https://arxiv.org/abs/1808.09744
摘要:了解已训练网络的行为并为其输出的找到合理性解释,这对于提高网络的性能和泛化能力,以及确保在自动化系统中正常运行非常重要。了目前有一些方法,是通过分析已训练的网络来识别和可视化最重要的特征。但是在大多数情况下,不同特征和类别之间的关系都会丢失。本文提出了一种技术用来归纳if-then-else规则集,这个规则集能捕获特征类别之间的关系,进一步地在全局范围内解释网络的预测。我们首先计算已训练网络中特征的重要性。然后,我们利用这些特征重要性得到的分数来衡量原始输入,并且简化变换后的输入空间,最后拟合规则归纳模型来解释模型预测。我们发现输出规则集可以成功解释包含4个类别的文本分类的神经网络预测结果,这4个类别的文本分类样本包括从20个新闻组数据集到0.80的宏观平均F分数。
评论:与我们的“Snap to Grid”论文类似的想法。 但他们最后还有额外的一步——从重要的特征中归纳出规则模型。
你应该问多少? 关于问答系统中的问题结构
https://arxiv.org/pdf/1809.03734.pdf
摘要:数据集能够提升问答(QA)系统中的回答质量,这证明我们可以用自然语言方式提问。但是,目前用户仍然习惯用类似查询的系统,这样的系统支持用户输入关键字来搜索答案。 在本次研究中,我们验证问题中哪些部分对于获得有效答案至关重要。为了说明这一点,我们利用了LIME——一种通过局部近似来解释预测的框架。 我们发现QA不支持语法和自然语言。 即使只有几个单词,最新模型就可以利用高效计算的LIME做出正确的回答。 据我们所知,这是LIME首次解释QA模型。
评论:将SQUAD问题中的文本减少到1或只是几个单词,DrQA仍然有效......
它关心你问什么吗? 理解动词在深度学习QA系统中的重要性
https://arxiv.org/abs/1809.03740
摘要:本文提出了在SQUAD数据集上训练的深度学习QA系统中,动词重要性调查的结果。 我们证明问题中的主要动词对系统做出的决定几乎没有影响 - 超过90%的研究案例表明用动词的反义词做替代并没有改变系统决策。我们追踪这种现象到网络的内部,分析self-attention的机制和RNN隐藏层中包含的值。 最后,我们认识到SQuAD数据集的特征是问题的根源。我们的研究参考了最近流行的NLP中的对抗样本,同时还结合了深层网络结构的研究。
评论:在SQUAD问题中打乱动词并没有改变答案......
枪械和老虎是危险的,菜刀和斑马不是:测试词嵌入向量(Word Embedding)是否可以分辨这些词语
https://arxiv.org/abs/1809.01375
摘要:本文提出了一种通过word embedding方法来捕获语义信息的性质的研究方法。我们提出了一种方法,使用群体判断得到的大量负样本,扩展了现有人为引用的语义属性数据集。我们的实验方法测试了监督分类器识别词嵌入向量中的语义特征的能力,并将其与基于全矢量余弦相似度的特征识别方法进行比较。这种方法背后的想法是通过embedding获得的属性是由分类器识别的,而不是通过全矢量比较识别的。如果一个属性无法被任何方法所识别,那么它就不是一个真正的属性。我们的研究结果初步表明,与实体交互方式(例如危险)相关的语义属性会被捕获,而表示感知信息(例如,颜色)则不会。我们初步得出结论我们的方法适用于识别哪些属性是可以被embedding捕获的。
评论:研究哪些属性是可通过简单的word-embedding捕获的。术语:"diagnostic classifier"(诊断分类器”)
EMNLP Day 1
添加常识性知识推理行为与状态变化
http://aclweb.org/anthology/D18-1006
摘要:理解程序文本,例如描述光合作用的段落,需要建模及其产生的状态变化,以便回答不同时间点的实体的问题。虽然最近几个系统在这项任务中取得了令人瞩目的进展,但它们的预测可能是全局不一致或极不可能的。
在本文中,我们展示了如何通过两种方式改进段落上下文中的行为的预测效果:(1)通过结合全局,常识约束(例如,不存在的实体不能被销毁),以及(2)通过偏好阅读大型语料库(例如,树不移动)。与早期方法不同,我们将问题视为神经结构预测任务,允许硬约束和软约束来引导模型远离不太可能的预测。结果表明,在文本理解上,新模型在基准数据集上明显优于基础系统(+ 8%相对增益),并且它还避免了早期系统所做的一些无意义预测。
评论:过程问题的问答,也就是说,答案是一系列的动作。可以将其视为结构化预测,用常识性知识精简搜索空间,反过来可以从大型语料库中提取常识性知识。这种方法类似于一个完整过程中的内存网络
收集多样化的自然语言推断问题进行句子评价
http://aclweb.org/anthology/D18-1007
论文摘要:我们呈现了一个体量很大的自然语言推断数据集,这些数据集可以帮助我们了解一个句子的表达是如何得到不同类型的推断。这个集合是通过将7种语义现象中的13个现有数据集重铸成一个通用的NLI(自然语言推断)结构而得到的,总共产生了超过50万个标记好的文本与假设对。我们将这个集合称为“DNC”(多样化的自然语言推断集合),你可以在http://www.decomp.net网站上查看,我们会不断完善和拓建这个集合。
评论:一个多样化的自然语言推理数据集。如果你在自然语言推理领域工作,值得好好读这篇论文,并应用到工作中。
短语索引的问答任务:可拓展文档阅读理解的新挑战
http://aclweb.org/anthology/D18-1052
论文摘要:我们将文档编码器从问题编码器中分离,组建了一个新的问答任务模块。这对于机器阅读理解是一个关键性的挑战,它要求文档对话内容独立表示出来。我们发现这样设置可以使问答任务具有明显的可伸缩性优势,因为待选答案的编码结果可以被提前计算出来,并离线建立索引,提高检索效率。我们用基线模型对新任务进行了检验,结果表明,虽然该模型的正确率在可接受范围内,但却明显低于无约束的问答模型,所以我们在问答研究项目论坛发布了任务,邀请大家一起参与短语索引问答项目(PIQA,pika),希望可以提高这个新模型的正确率。请查看:nlp.cs.washington.edu/piqa
评论:只检索短语(NPs和NEs)而不是整篇文档。为每个短语生成编码,并使用与问题向量最近的作为答案。这篇论文不错,但这个模型目前表现还不是很好。
通过段落排序提高开放域问答中的答案提取效能
http://aclweb.org/anthology/D18-1053
论文摘要:最近,开放域问答通过与机器理解模型结合的形式,从大规模知识集中寻找答案。开放域问答需要从文本语料库中检索相关文档来回答问题,其性能在很大程度上取决于文档检索器的性能。然而,由于传统的信息检索系统不能有效地获取可能包含答案的文件,这降低了问答系统的性能。,单纯提取更多数量的文档也会增加不相关文档的数量,也会降低问答系统的性能。本文引入了段落排序器,它对检索到的文档的段落进行排序并获得了更高的召回率。我们在四个开放域问答数据集中对段落进行排序并使用段落排序器聚合答案,结果平均提高了7.8%。
评论:在问答系统中训练段落排序器。局限性:段落排序器受到监督;只关注简单的问题(它在复杂的问答问题上表现得怎么样?);专注于在段落排序过程中提高答案提取效率(我们是否应该关注F1)?
深度问答自适应文档检索
http://aclweb.org/anthology/D18-1055
论文摘要:目前最流行的深度问答流程如下:(1)初始文档检索相关文档;(2)用神经网络进行处理,提取最终答案。然而,人们对这两个组件之间的相互作用知之甚少,特别是关于候选检索文档的数量。我们发现,选择数据固定的文档(正如我们先前研究中使用的那样)会导致信息淹没在噪声中,产生不理想的结果。因此,我们提出了一种自适应文档检索模型,它将根据语料库和查询量的大小确定最佳候选检索文档数量。我们进行了多次实验,结果显示我们的自适应方法在多个基准数据集上的表现优于目前最流行的方法,以及在不同量级的语料库中也是如此。
评论:这个主意不错,根据我们对IR系统的信心确定QA问题的候选检索文档数量(信心越大,候选检索文档越少)。很棒,但是它把IR系统当成了一个黑盒了。
一种基于上下文的深度神经网络句子层次分类方法
http://aclweb.org/anthology/D18-1107
论文摘要:在句子分类任务中,被分类的句子与相邻的句子所构成的上下文可以为分类提供重要的信息。然而,这个语境却经常被忽略。有的方法虽然使用语境,但范围受到局限,很难评价效果好坏。我们提出了一种新的句子分类方法,Context-LSTM-CNN,它尝试大范围使用上下文。该方法也利用了被分类的句子中的远程依赖关系,使用LSTM,短时特性,以及堆叠式CNN。我们的实验表明,在两个不同的数据集上,这种方法比以前的更胜一筹。
评论:一种很有效的编译大范围上下文的方法(例如,进行句子分类时,对句子所在的整个文档进行编码)。用FOFE编码(固定长度依次遗忘编码)会很高效。如果你需要使用大量文本来进行句子分类,请阅读本文。
RESIDE:利用辅助信息改进远程监督的神经关系提取
http://aclweb.org/anthology/D18-1157
论文摘要:远程监督的关系提取(RE)方法通过将知识库(KB)中的关系实例与非结构化文本自动关联来训练提取器。除了关系实例之外,知识库通常包含其他相关的辅助信息,例如别名之间的关联关系(例如,创立和联合创立,实际上都是公司创始人)。
关系提取模型经常忽略这些现成的次要信息。在本文中,我们提出了一种远程监督神经关系的提取方法,叫做RESIDE,它利用知识库中的次要信息改进关系提取的结果。它同时使用实体类型和别名关联信息进行软约束,在预测关系时双重保险。RESIDE方法使用图形卷积网络(GCN)从文本中对语法信息进行编码,这样即使次要信息数量有限,也可以保证效率。通过对基准数据集的大量实验,我们证明了RESIDE方法的有效性。我们已经公开了RESIDE方法的源代码,希望可以鼓励后续研究。
评论:远程监督关系提取的新方法,使用知识库中的相关关系别名,将PCNN与图形卷积网络(GCN)连接起来。
EMNLP会议第2天
QuAC:语境中的问答
http://aclweb.org/anthology/D18-1241
论文摘要:在这篇论文中我们研究了QuAC,一个用于语境问答的数据集,它包含1.4万个信息搜索问答对话(总共10万个问题)。这些对话涉及两个群体:(1)一个学生提出一系列自由式问题,以便尽可能多地学习隐藏在维基百科文本的词法;(2)一个教师用文本中的简短片段来回答问题。QuAC发现了一个现有机器阅读理解还没有遇到的挑战:它的问题往往是更开放的、无法回答的,或者只有在对话文本语境中才有意义,我们会在本文中展示一个详细的定性评估。我们也研究了一些参考模型的结果,包括最近的最流行的被用于建立对话语境模型的阅读理解架构。我们最好模型的F1仍然比人类的表现差了20 个点,这表明在这些数据上还有很大的研究空间。数据集、基线和排行榜可在以下网址查看:http://quac.ai
评论:对话式问答的新数据集。
从释义中学习标量形容词强度
http://aclweb.org/anthology/D18-1202
论文摘要:诸如“温的”、“热的”和“滚烫的”等形容词都在描述温度,但强度不同。理解形容词之间的这些差异是自然语言推理的必要部分。我们提出了一种新的基于释义的方法,来学习一对标量形容词之间的相对强度关系。我们分析了超过3.6万个释义数据集中的形容词对,其中有一些假设逻辑,例如,将“真的热”和“滚烫的”配对,可以判断出“热的”的强度要弱于“滚烫的”。实验证明,将这种释义结果与现有的、互补的基于模式和词汇的方法相结合,可以提高自动排序标量形容词集的系统质量,并推断出是/否问题的间接回答的极性。
评论:从释义中学习形容词的排序。
MemoReader:神经记忆控制器实现大规模阅读理解
http://aclweb.org/anthology/D18-1237
摘要:机器阅读理解帮助机器学习以文本形式为载体的大部分人类知识。虽然目前存在的方法与人类水平表现相比取得了重大的进步,但这些方法仍受限于理解力,往往不能正确理解连续几段的冗长文章。在本文中,我们提出了一种新的深度神经网络架构来处理RC任务中的远程依赖(LRD, long-range dependency)问题。具体来说,我们提出的方法有两个方面的创新:(1)先进的存储器增强架构(2)密集连接的扩展门循环单元——用于降低内存中发生的潜在信息失真的情况。此架构同样适用于其他模型。我们利用知名的基准数据集(如TriviaQA,QUASAR-T和SQuAD)进行了大量实验。 实验结果表明,该方法的性能表现优于现有方法,特别是在处理冗长文档方面效果更为明显。
评论:扩展记忆网络更擅长阅读理解。
交叉对文本表示用于问答系统答案句的选取
http://aclweb.org/anthology/D18-1240
摘要:高级语义任务涉及文本对的建模,例如释义、文本含义或问答。在神经网络出现之前,主要是使用内部文本对的特征来实现的,其中包含在同一文本对之间相似性得分或重写计算规则。在本文中,我们计算表示不同文本对间向量表达相似性之间的标量积,而不是简单地为每个文本对使用单个向量。这让我们可以获得特定的任何一对文本的表示,能提供最好的句子回答。最重要的是,我们的方法比基于神经网络的更复杂的算法还要好。
评论:kernels对QA依然非常有效。.
使用图状态LSTM的N元关系提取方法
http://aclweb.org/anthology/D18-1246
摘要:跨句关系提取用于检测多个句子中n个实体之间的关系。常规的方法是将输入表示为文档图,文档图包含了各种句内和句子间依赖关系。当前最先进的方法是将输入图分成两个DAG,每个DAG采用DAG结构的LSTM。虽然能够通过利用图形边缘来模拟丰富的语言知识,但是在分割过程中可能会丢失重要信息。我们提出了一个图形状态LSTM模型,它使用并行状态来模拟每个单词,通过消息传递方式反复丰富状态值。与DAG LSTM相比,我们的图形LSTM保留了原始图形结构,并通过允许更多并行操作来提升计算速度。在基准测试中,我们的模型相比文献中的各种方法取得了最佳结果。
评论:随时间监视句子中的每个词是处理图LSTMs的一个很好的想法。应用于nary关系的提取。
神经关系分类体系架构的大规模探索
http://aclweb.org/anthology/D18-1250
摘要:使用深度神经网络体系架构,关系分类任务的实验性能得到了普遍提升。研究报告的一个主要缺点是,由于个别模型在非常有限的数据集范围内进行的评估,难以和参考方法进行性能比较,引发了对架构适应性的质疑。在这项工作中,我们基于六个基准数据集的不同特征展示了对神经关系分类架构的大规模系统分析,提出了一种多通道LSTM模型与CNN相结合的新方法,它充分利用了当前所有流行语言和架构特征。我们的“Man for All Seasons”方法在两个数据集上取得了最优的性能。更重要的是,在我们看来,该模型使我们能够直接了解神经语言模型在此任务中面临的持续挑战。示例数据和源代码可从以下网址获得:https://github.com/aidantee/ MASS。
评论:该文章做的工作是:结合了特征,WordNet信息,POS标签和Fastext的新颖word embedding方法。常规的方法有:position embeddings,biLSTMs,CNNs。
盔甲可以导电吗?一个开卷问答的新数据集
http://aclweb.org/anthology/D18-1260
摘要:我们提出了一种新的问答数据集,OpenBookQA,以开放式书籍评测为模型,用于评估人类对主题的理解。我们的问题附带的开放式书籍是一套1326个基础科学事实。大约6000个问题探讨了对这些事实及其在新场景中应用的理解。这需要将开放式书籍事实(例如,金属能导电)与从其他来源获得的普遍常识(例如,一套盔甲由金属制成)结合起来。
虽然建立在文档或知识库上现有的QA数据集通常是独立的,专注于语言理解,但OpenBookQA对常识内容的主题和所需表达的语言进行了更深入的理解 。OpenBookQA的人类表现接近92%,但是许多最先进的预训练QA方法的表现出奇差,比我们开发的几个简单的神经基线还差。我们的实验目的是避免知识检索瓶颈,同时展示了开放式书籍和其他事实的价值。目前,我们将其作为一个挑战,来解决这个多跳设置中的检索问题并尝试缩小与人类表现的巨大差距。
评论:一个很好的自由文本语言推理数据集。
深度概率性逻辑:间接监督的统一框架
http://aclweb.org/anthology/D18-1215
摘要:由于深度学习表现出的出色的学习能力,已成为各种NLP任务的通用工具。但是它的适用性受到了注释样本的依赖限制,因为这些样本难以大规模产生。间接监督已经成为解决这一瓶颈的最有希望的方法,要么通过引入标签函数来自动生成未标记文本的噪音样本,要么通过对相互依赖的标签决策施加约束。虽然目前已经提出了许多解决这一问题的方法,但是每种方法都有各自的优点和局限性。
概率逻辑提供了一种统一的语言来表示间接监督,但由于其难以推理和学习,因此使用概率逻辑的端到端建模通常是不可行的。在本文中,我们通过结合深度学习和概率逻辑,提出以深度概率逻辑(DPL)作为间接监督的通用框架。DPL模型将决策标记为隐变量,使用加权的一阶逻辑公式表示其关系的先验知识,并在深度神经网络和细化间接监督中不确定公式权重之间交替使用EM算法。该框架将此前的间接监督方法作为特殊情况包含在内,并通过输入丰富的领域和语言知识实现新的组合。生物医学机器阅读的实验证明了这种方法的前瞻性。
评论:将逻辑推理与深度学习相结合!
生成自然语言对抗样本
http://aclweb.org/anthology/D18-1316
摘要:深度神经网络(DNN)对对抗样本的表现极为敏感,如果对正确分类的样本的加入细微扰动就可能导致模型错误分类。在图像领域,这些扰动通常人类感知无法分辨,导致人类和最先进的模型都束手无策。然而,在自然语言领域中,细微扰动是明显可感知的,而且单词的替换可以极大地改变文档的语义。
鉴于目前存在的挑战,我们使用基于黑盒子群体的优化算法来生成语义和语法相似的对抗样本,这些样本“欺骗”经过良好训练的情绪分析和文本内容模型,成功率分别达到了97%和70%。我们还证明了92.3%的成功的情绪分析对抗样本被20个人类注释者归类为原始标签,并且这些样本明显非常相似。最后,我们讨论了使用对抗训练作为“防御者”的尝试,但未能产生性能改善,表明了我们的对抗样本的“抵抗力”和多样性。我们希望研究结果能够鼓励研究人员在自然语言领域提升DNNS的鲁棒性。
评论: 生成有意义的对抗样本好方法。
最后,你可以在下面的链接找到EMNLP和CoNLL2018的全部论文。
EMNLP:https://aclanthology.coli.uni-saarland.de/events/emnlp-2018
CoNLL:https://aclanthology.coli.uni-saarland.de/events/conll-2018
相关报道:https://github.com/clulab/nlp-reading-group/blob/master/conference_summaries/emnlp2018.md