第57届国际计算语言学协会年会(ACL 2019)已于本月初在意大利佛罗伦萨闭幕。作为自然语言处理(NLP)领域的国际顶级学术会议,自1962年成立之初,ACL就一直致力于推动计算语言学及自然语言处理相关研究的发展和国际学术交流。
本次会议创下了国际NLP顶会的新纪录,论文提交数量飙升到2906篇,最终收录论文660篇,录取率仅为22.7%。今年会议投稿最多的3个领域分别是,信息提取和文本挖掘占所有有效提交的 9.2%;机器学习占比 8.2%;机器翻译占比 7.7%。可见,自然语言处理研究是迎来了黄金时代。
学术君整理了ACL 2019收录的部分论文,除了对8篇最佳论文的介绍,我们还对本公号近期发布的ACL 2019论文解读文章进行了汇总整理,供大家学习参考。
最佳长论文奖
Bridging the Gap between Training and Inference for Neural Machine Translation
弥补神经机器翻译在训练和推理过程之间的缺口
论文作者:Wen Zhang, Yang Feng, Fandong Meng, Di You ,Qun Liu
论文地址:https://arxiv.org/pdf/1906.02448.pdf
论文摘要:
神经机器翻译(NMT)是以上下文为条件来预测下一个词,从而顺序地生成目标词。在训练时,它以ground truth词汇作为上下文进行预测;而在推理时,它必须从头开始生成整个序列。反馈上下文信息的这种差异会导致误差累积。此外,词级训练要求所生成的序列与ground truth序列之间严格匹配,这导致对不同的但合理的翻译的过度校正。在本文中,我们在模型训练中不仅从ground truth序列还从预测序列中来采样上下文,其中预测序列是用句子级最优来选择的。我们在Chinese->English 和 WMT‘14 English->German的翻译任务的实验结果表明,我们的方法可以在多个数据集上实现显著的改进。
最佳短论文奖
Do you know that Florence is packed with visitors?Evaluating state-of-the-art models of speaker commitment
“你知不知道佛罗伦萨全都是游客?”,评价最先进的说话人承诺模型
论文作者:Nanjiang Jiang, Marie-Catherine de Marneffe
论文地址:https://www.aclweb.org/anthology/P19-1412
论文摘要:
当一个人,比如 Mary问你“你知不知道佛罗伦萨全都是游客?”,我们会认为她相信佛罗伦萨全都是游客;但如果她问“你觉得佛罗伦萨游客多吗?”,我们就不会这样认为。推断说话人承诺(或者说事件真实度)是问答和信息提取任务中的关键部分。
在这篇论文中,作者们探索了这样一个假说:语言学信息的缺乏会影响说话人承诺模型中的错误模式。他们的验证方式是在一个有挑战性的自然语言数据集上分析模型错误的语言学关联性。作者们在 CommitmentBank 这个由自然英语对话组成的数据集上评价了两个目前最好的说话人承诺模型。CommitmentBank 数据集已经经过了说话人承诺标注,方式是在 4 种取消蕴含的环境中向着时态嵌入动词(比如知道、认为)的补充内容进行标注。作者们发现,一个带有语言学知识的模型能展现比基于 LSTM 的模型更好的表现,这表明如果想要在这样的有挑战性的自然语言数据中捕捉这些信息的话,语言学知识是必不可少的。对语言学特征的逐项分析展现出了不对称的错误模式:虽然模型能在某些状况下得到好的表现(比如否定式),但它很难泛化到更丰富的自然语言的语言学结构中(比如条件句式),这表明还有很大提升的空间。
杰出论文奖
Emotion-Cause Pair Extraction:A New Task to Emotion Analysis in Texts
情绪-原因对的提取:文本情感分析中的一个新任务
论文作者:Rui Xia, Zixiang Ding
论文地址:https://arxiv.org/pdf/1906.01267.pdf
论文摘要:
情绪原因提取(Emotion cause extraction ,ECE)是一项旨在提取文本中某些情绪背后潜在原因的任务,近年来由于其广泛的应用而受到了很多关注。然而,它有两个缺点:1)情绪必须在ECE原因提取之前进行标注,这极大地限制了它在现实场景中的应用;2)先标注情绪然后提取原因的方式忽略了它们是相互指示的事实。在这项工作中,我们提出了一项新任务:情绪 - 原因对提取(emotion-cause pair extraction ,ECPE)。这个任务旨在提取文本中潜在的情绪-原因对。我们提出了两步法来解决这个新的ECPE任务。首先通过多任务学习单独地进行的情绪提取和原因提取,然后进行情绪-原因配对和过滤。基准情绪-原因语料库的实验结果证明了ECPE任务的可行性以及我们方法的有效性。
A Simple Theoretical Model of Importance for Summarization
文本摘要重要性的一个简单的理论模型
论文作者:Maxime Peyrard
论文地址:https://www.aclweb.org/anthology/P19-1101
论文摘要:
摘要研究主要由经验方法驱动,手工精心调制的系统在标准数据集上表现良好,但其中的信息重要性却处于隐含状态。我们认为建立重要性(Importance)的理论模型会促进我们对任务的理解,并有助于进一步改进摘要系统。为此,我们提出了几个简单但严格定义的概念:冗余(Redundancy),相关性(Relevance)和信息性(Informativeness)。这些概念之前只是直观地用于摘要,而重要性是这些概念统一的定量描述。此外,我们提供了建议变量的直观解释,并用实验证明了框架的潜力以指导后续工作。
Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
用于面向任务的对话系统的可传输的多领域状态生成器
论文作者:Chien-Sheng Wu, Andrea Madotto, Ehsan Hosseini-Asl, Caiming Xiong, Richard Socher and Pascale Fung
论文地址:https://arxiv.org/pdf/1905.08743.pdf
论文摘要:
过度依赖领域本体和缺乏跨领域知识共享是对话状态跟踪的两个实际存在但研究较少的问题。现有方法通常在在推理过程中无法跟踪未知slot 值,且通常很难适应新领域。在本文中,我们提出了一个可转换对话状态生成器(Transferable Dialogue State Generator,TRADE)它使用复制机制从话语中生成对话状态,当预测在训练期间没有遇到的(domain,slot,value)三元组时可以促使知识转移。我们的模型由一个话语编码器、slot gate、状态生成器组成,它们跨域共享。实验结果表明,TRADE在人类对话数据集MultiWOZ的五个领域中实现了最先进的联合目标准确率48.62%。此外,我们通过模拟针对未见过的领域的zero-shot和few-shot对话状态跟踪,证明了其传输性能。在其中一个zero-shot域中TRADE实现了60.58%的联合目标准确率,并且能够适应少数几个案例而不会忘记已经训练过的域。
We need to talk about standard splits
我们需要谈谈标准的数据集分割做法
论文作者:Kyle Gorman and Steven Bedrick
论文地址:https://wellformedness.com/papers/gorman-bedrick-2019.pdf
论文摘要:
语音和语言技术的标准做法是根据在一个测试集上的性能来对系统进行排名。然而很少有研究人员用统计的方法来测试性能之间的差异是否是由偶然原因造成的,且很少有人检查同一个数据集中分割出不同的训练-测试集时的系统排名的稳定性。我们使用了2000年至2018年间发布的九个词性标注器进行复现实验,这些标注器每个都声称在广泛使用的标准的分割方式上获得了最佳性能。然而当我们使用随机生成的训练-测试集分割时,根本无法可靠地重现某些排名。我们在此建议使用随机生成的分割来进行系统比较。
Zero-Shot Entity Linking by Reading Entity Descriptions
通过阅读实体描述进行零样本实体链接
论文作者:Lajanugen Logeswaran, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, Jacob Devlin and Honglak Lee
论文地址:https://arxiv.org/pdf/1906.07348.pdf
论文摘要:
我们提出了zero-shot实体链接任务,其中mentions必须链接到没有域内标记数据的未曾见过的实体。这样做的目的是实现向高度专业化的领域的鲁棒迁移,因此我们不会假设有元数据或别名表。在这种设置中,实体仅通过文本描述进行标记,并且模型必须严格依赖语言理解来解析新实体。首先,我们表明对大型未标记数据进行预训练的阅读理解模型可用于推广到未曾见过的实体。其次,我们提出了一种简单有效的自适应预训练策略,将其称为域自适应预训练(domain-adaptive pre-training ,DAP),DAP可以解决与在新域中链接未见实体的域迁移问题。我们在为此任务构建的新数据集上进行的实验,显示了DAP在强预训练基线(包括BERT)上有所改进。
最佳 Demo 论文奖
OpenKiwi:An Open Source Framework for Quality Estimation
论文作者:Fabio Kepler, Jonay Trenous, Marcos Treviso, Miguel Vera and André F. T. Martins
论文地址:https://arxiv.org/pdf/1902.08646.pdf
论文摘要:
基于PyTorch的开源框架OpenKiwi,该框架可用于翻译质量评估。OpenKiwi支持单词级和句子级质量评估系统的训练和测试,实现了WMT 2015-18 质量评估比赛中的最佳系统。我们在WMT 2018(英-德 SMT 和NMT)的两个数据集上对OpenKiwi进行了基准测试,在单词级任务达到最先进的水平,句子级任务中也能够接近最先进的水平。
以下十篇文章是本公众号近来发布的对ACL 2019相关论文的解读。
Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs
论文作者:Deepak Nathani,Jatin Chauhan,Charu Sharma, Manohar Kaul
论文地址:https://arxiv.org/pdf/1906.01195.pdf
论文解读:为知识图谱添加注意力机制
ConvE和ConvKB等基于卷积神经网络(CNN)的表示学习方法可以为知识图谱生成更丰富和表现力更强的向量表示,也取得了很好的实验效果。但是这些模型仅仅独立地表示每一个三元组,而忽略了三元组周围的邻居中蕴含的复杂语义信息,这在一定程度上限制了这类模型的性能。本论文将注意力机制引入到了每个三元组的邻居中,每个实体的表示都与其邻居息息相关。值得注意的是,传统的表示学习模型在进行实体链接预测时,是没有解释性的,仅仅可以给出结果。但是加入了注意力机制后,我们便可以使用每个邻居的注意力权重为模型的预测结果做出一定的解释。
Cognitive Graph for Multi-Hop Reading Comprehension at Scale
论文作者:Ming Ding, Chang Zhou, Qibin Chen, Hongxia Yang, Jie Tang
论文地址: https://arxiv.org/pdf/1905.05460.pdf
论文解读:揭秘认知图谱!从多跳阅读理解问答开始
本篇论文介绍了基于认知中“双过程理论(dual process theory)”的CogQA模型,文章提出一种新颖的迭代框架:算法模拟认知学中人类的两个认知系统,并维护一张认知图谱(Cognitive Graph),系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量,系统二利用图神经网络在认知图谱上进行推理计算。文章在HotpotQA全维基百科数据集上持续占据第一近三个月之久,直到文章在被ACL高分接收后公开。
在图灵奖得主Judea Pearl的新作《The Book of Why》中,他强调了图结构在认知和智能中的重要地位--智能不能拘泥于统计,更应该注重因果与逻辑链条,而后者则与图结构密不可分。认知图谱(Cognitive Graph)则是图结构在问答问题上的一次有意义的尝试,BERT、XLNet这样的预训练模型是否是认知理论中“系统一”的最终答案?图结构到底应该怎样服务于“系统二”的推理呢,比如如果能够对超长的文本进行注意力(attention)机制,那么象征着因果和逻辑的结构信息究竟是否必要?自然语言处理正处在一个蓬勃发展的时期,希望这篇文章可以给大家更多的思考。
Few-Shot Representation Learning for Out-Of-Vocabulary Words
论文作者:Ziniu Hu, Ting Chen, Kai-Wei Chang, Yizhou Sun
论文地址:https://arxiv.org/pdf/1907.00505.pdf
论文解读:Few-shot Learning学习词表外的词表示
现有的词嵌入方法通常假设在语料中每个词都出现足够多次,这样我们就可以通过词的上下文获得该词的词表示。但在现实世界的场景中,经常有些词不会频繁出现在训练集中,这就为学习他们的词表示带来了挑战。
该论文将学习词表外词表示看做few-shot回归问题,提出了一种新的基于层次关注的架构作为神经回归函数,利用该神经回归函数,从K个观察值对单词的上下文信息进行编码和聚合。此外,还可以利用模型不可知元学习(MAML)来快速有效地使学习模型适应新的语料库。
Dynamically Fused Graph Network for Multi-hop Reasoning
论文作者:Yunxuan Xiao,Yanru Qu,Lin Qiu,Hao Zhou,Lei Li,Weinan Zhang, Yong Yu
论文地址:https://arxiv.org/pdf/1905.06933.pdf
论文解读:用于多跳推理的动态融合图网络
多文档问答是自然语言处理领域近期比较火热的一个研究问题,不同于传统的问答系统,多文档问答需要模型从数个文档中协同地寻找问题的答案,这对模型的多跳推理能力提出了很高的要求。
基于文本的问答(Text-based QA)是自然语言处理领域的一个经典问题,大多数现有的方法都是侧重于在一段话中找到问题的答案。然而在实际的生活中,许多困难的问题往往需要在两个甚至多个文档中的文本中寻找答案的证据。为了推动这类困难问题的进一步研究,在去年的EMNLP 2018上,杨植麟等人提出了HotpotQA数据集。
上图便是HotpotQA的一个问答示例,为了回答问出的问题,一个模型往往需要处理给出的全部的参考段落,在其中找到答案存在的证据。
为了解决这类问题,这篇论文便提出了一个称为动态融合图网络(DFGN)的模型。这个模型受人类一步步推理行为的启发,首先为文档中出现的实体构建图网络,之后从给定问题中提到的实体出发,沿着文档构造的实体图出发进行搜索,逐步给出文档中找出的相关实体作为最终答案。
GraphRel:Modeling Text as Relational Graphs for Joint Entity and Relation Extraction
论文作者:Tsu-Jui Fu, Peng-Hsuan Li, Wei-Yun Ma
论文地址:https://tsujuifu.github.io/pubs/acl19_graph-rel.pdf
论文解读:将文本建模为关系图用于关系提取
提取实体和语义关系是从非结构化文本构建知识结构的核心任务,传统的流水线方法通常是先进行命名实体识别然后对实体关系进行预测,联合学习实体识别和关系抽取能获得更好的效果,但这些联合模型需要进行大量的特征工程。已有的神经网络方法都不是端到端的联合模型,他们假设已知命名实体并预期现实世界的命名实体识别会导致模型表现显著降低。
本文提出了一个端到端的关系提取模型GraphRel,使用GCN和Bi-LSTM编码器学习抽取命名实体及关系,考虑了线性和依赖结构,以及文本的所有单词对之间的隐式特征;通过端到端的实体、关系联合建模,同时对所有实体对进行预测;也考虑到了实体和关系之间的相互作用。
Matching the Blanks:Distributional Similarity for Relation Learning
论文作者:Livio Baldini Soares ,Nicholas FitzGerald ,Jeffrey Ling, Tom Kwiatkowsk
论文地址:https://arxiv.org/pdf/1906.03158.pdf
论文解读:Matching the Blanks 预训练关系表示模型
通用目的(General Purpose)的关系抽取器,即能够对任意关系建模的关系抽取器,是信息抽取研究中的愿景。之前提出的构建通用关系抽取器的方法,如用表面形式(Surface Form)来表示关系,或者联合嵌入关系的表面形式和知识库中的关系的方法,都不能够很好地泛化。
论文使用Bert来对文本关系进行表示,并且提出了Matching the blanks的方法来预训练任务不可知(task agnostic)的关系抽取模型。论文的模型在Few-shot关系抽取的数据集FewRel上达到了SOTA的结果,并超过了数据集给定的人类水平,并且在有监督的关系抽取数据集SemEval 2010 Task8、KBP37、TACRED上也达到了SOTA的效果。
论文的贡献主要有两个:
- 测试了Bert的不同的输入方式和输出方式对关系抽取结果的影响;
- 提出了关系抽取预训练任务Matching the blanks,在少样本关系抽取任务上效果提升明显。
Scoring Sentence Singletons and Pairs for Abstractive Summarization
论文作者:Logan Lebanoff,Kaiqiang Song,Franck Dernoncourt,Doo Soon Kim,Seokhwan Kim,Walter Chang,Fei Liu
论文地址:https://arxiv.org/pdf/1906.00077.pdf
论文解读:基于单句和双句打分的生成式摘要
生成式摘要(Abstractive Summarization)的目标是对输入的一篇文档生成一段较短的摘要,以概括原文档的内容。为了提高生成质量,已有的一些方法会先从原文中抽取一些代表性的句子,然后再基于该句子集合使用 seq2seq 模型进行改写,从而得到生成的结果。本文作者认为,在生成摘要的过程中,除了需要对单个代表性句子进行压缩或改写,还需要考虑多个句子的信息融合,尤其是两个句子(即 Sentence Pair)的信息融合。作者给出了三个摘要数据集(XSum,DUC04,CNN/Daily Mail)中的统计信息以验证其猜想,如下图所示,可以看到有相当数量的摘要是通过融合两句话得到的。
基于这个观察,本文提出了一种对单个句子和句子进行联合打分的方法,用来筛选代表性的句子或句子对。本文探索了多种句子表示方式,并报告了详细的实验结果。
Generating Summaries with Topic Templates and Structured Convolutional Decoders
论文作者:Laura Perez-Beltrachini,Yang Liu,Mirella Lapata
论文地址:https://arxiv.org/pdf/1906.04687.pdf
论文解读:利用主题模板进行维基百科摘要生成
生成式多文档摘要的目标是从一系列理论上相关的文档中生成一个合乎逻辑的摘要。最近,谷歌将生成维基百科文档的导读部分看作了一个多文档摘要任务的变种,并发布了一个大规模的摘要数据集WikiSum。然而,之前的摘要工作大多将摘要结果看作单个长文本序列,忽视了文档常常分为多个主题,并且一类文档可以看作由多个主题按顺序排列得到:如动物类文档通常会按顺序讲述其生活区域与栖息地类别。这些信息可以帮助生成更流畅的摘要。
本文提出了一个由主题结构作指导的神经网络模型,没有使用常见的循环神经网络,而是在卷积解码器的基础上显性地加入了内容的主题结构,从而生成完整而流畅的摘要。此外,本文还提供了数据集WIKICATSUM,其中包含公司、电影与动物三个领域的维基百科文档与对应的候选片段。
Modeling Semantic Compositionality with Sememe Knowledge
论文作者:Fanchao Qi, Junjie Huang, Chenghao Yang , Zhiyuan Liu , Xiao Chen , Qun Liu, Maosong Sun
论文地址:https://arxiv.org/pdf/1907.04744.pdf
论文解读:用义原知识建模语义合成
https://www.aminer.cn/research_report/5d54f241d5e908133c946b7a?download=false
语义合成指复杂语义单元的语义可以由其成分的语义组成的现象。这篇文章验证了义原知识对于建模语义合成的作用。并将义原知识整合到语义合成的模型中,来进行多词表达式的学习。作者使用著名的义原知识库Hownet进行了训练和测试,验证了义原知识对建模语义合成的有效性。
义原是人类语言的最小语义单位。单词的语义可以用一个有限的义原集合来描述。Hownet是一个著名的义原知识库,其中定义了2000多个义原,并且使用义原描写了100000多个中文单词。
作者首先进行了一个小实验,测量语义组合度(Semantic Compositionality Degree)。作者发现基于义原公式计算出来的语义组合度和人类计算出来的语义组合度十分吻合,因此猜测义原知识可以提升MWE的表示。
小实验介绍:不同的MWE展现了不同程度的语义组合,如表1,作者定义了四种语义组合度,SCD的number(3,2,1,0)越大,代表语义组合度越高。第一种计算语义符合度的方式是根据义原集合来计算。第二种计算方式由人类去进行组合度打分。实验发现两种计算方式的吻合度很高。
Improving Multi-turn Dialogue Modelling with Utterance ReWriter
论文作者:Hui Su, Xiaoyu Shen, Rongzhi Zhang, Fei Sun, Pengwei Hu, Cheng Niu and Jie Zhou
论文地址:https://arxiv.org/pdf/1906.07004.pdf
论文解读:使用表达改写提升多轮对话系统效果
https://www.aminer.cn/research_report/5d527dd4d5e908133c946b07?download=false
这篇论文构建了一个高质量的中文对话改写数据集用于指代消解和信息不全,同时提出了一种表达改写模型。
论文提出了一种重写人类表达的预处理方法用于改善多轮对话模型的效果。首先重写每个表达以恢复所有指代以及省略的信息。然后基于重写的表达执行下一个处理步骤。为了正确训练表达重写器,本文收集带有人工标注的新数据集,并使用指针网络引入基于transformer的表达重写架构。本文的方法在表达重写任务中实现了非常好的性能。经过培训的表达重写器可以很容易地集成到在线聊天机器人中,并在不同的领域带来全面的改进。
最后,学术君再次贴心地为大家奉上ACL 2019全部论文集地址,有需要的自行查找啦!
ps,如果你还想看其他相关论文的解读,欢迎给我们留言,学术君会尽快安排上的!
传送门:http://www.acl2019.org/EN/program.xhtml