2020/09/21 11:31

哈工大SCIR九篇长文被EMNLP 2020及子刊录用

EMNLP 2020（2020 Conference on Empirical Methods in Natural Language Processing）将于2020年11月16日至20日以在线会议的形式举办。EMNLP是计算语言学和自然语言处理领域顶级国际会议之一，CCF B类会议，由ACL SIGDAT（语言学数据特殊兴趣小组）主办，每年举办一次。

EMNLP 2020共收到有效投稿3114篇，录用754篇，录用率为24.82%。此外，因为高质量的论文越来越多超出了EMNLP会议本身所能容纳的范围，今年EMNLP新增了Findings of EMNLP这一子刊，它将接纳那些未被主会录用但是被程序委员会评价为值得出版的文章，此次Findings of EMNLP共接收了520篇文章。EMNLP 2020接收的论文覆盖了对话交互系统、信息抽取、信息检索和文档分析、词法语义、语言学理论、认知建模和心理语言学、用于NLP的机器学习、机器翻译与多语言、问答、句子级语义学、情感分析和论点挖掘、文本挖掘和NLP应用、文本推理等自然语言处理领域众多研究方向。

哈尔滨工业大学社会计算与信息检索研究中心有九篇长文被录用，其中四篇被主会录用，五篇被Findings of EMNLP子刊录用。下面是论文列表及介绍：

题目：Combining Self-Training and Self-Supervised Learning for Unsupervised Disfluency Detection

作者：王少磊，王重元，车万翔，刘挺

录用类别：主会

简介：目前大部分在文本顺滑（Disfluency Detection）任务上的工作都严重依赖人工标注数据。有一些工作尝试用自监督方法（self-supervised）来缓解这个问题，但是他们的方法仍然依赖于有标注数据。在本工作中，我们首次尝试用无监督的方法来解决文本顺滑问题。我们通过结合自学习（self-training）和自监督两种方法，在不采用任何有标注训练数据的情况下，取得了跟目前最好的有监督方法接近的效果。

题目：Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting

作者：陈三元，侯宇泰，崔一鸣，车万翔，刘挺，余翔湛

录用类别：主会

简介：深层预训练模型在“预训练+精调”模式中取得了巨大成功。但这种迁移学习方法通常会碰到“灾难性遗忘”问题并且会导致次优结果。为了在精调过程中减少“灾难性遗忘”问题，我们提出了一种“recall and learn”的方法来同时学习预训练任务和下游任务。具体地，我们提出了一种模拟预训练机制，在不使用数据的情况下回忆预训练任务所带来的知识；同时提出了一种目标转移机制来逐步学习下游任务。实验结果表明我们的方法可以在GLUE任务上获得state-of-the-art效果。同时，BERT-base在应用了我们的方法后能够超过直接精调BERT-large的效果。我们已经将RecAdam优化器进行开源：https://github.com/Sanyuan-Chen/RecAdam。

题目：Proﬁle Consistency Identiﬁcation for Open-domain Dialogue Agents

作者：宋皓宇，王琰，张伟男，赵正宇，刘挺，刘晓江

录用类别：主会

简介：保持一致的角色属性是对话系统自然地与人类进行交流的关键因素之一。现有的关于提高属性一致性的研究主要探索了如何将属性信息融合到对话回复中，但是很少有人研究如何理解、识别对话系统的回复与其属性之间的一致性关系。在这项工作中，为了研究如何识别开放域对话的属性一致性，我们构建了一个大规模的人工标注数据集KvPI，该数据集包含了超过11万组的单轮对话及其键值对属性信息。对话回复和键值对属性信息之间的一致性关系是通过人工进行标注的。在此基础上，我们提出了一个键值对结构信息增强的BERT模型来识别回复的属性一致性。该模型的准确率相较于强基线模型获得了显著的提高。更进一步，我们在两个下游任务上验证了属性一致性识别模型的效果。实验结果表明，属性一致性识别模型有助于提高开放域对话回复的一致性。

题目：Counterfactual Off-Policy Training for Neural Dialogue Generation

作者：朱庆福，张伟男，刘挺，William Wang

录用类别：主会

简介：开放域对话系统由于潜在回复数量过大而存在着训练数据不足的问题。我们在本文中提出了一种利用反事实推理来探索潜在回复的方法。给定现实中观测到的回复，反事实推理模型会自动推理：如果执行一个现实中未发生的替代策略会得到什么结果？这种后验推理得到的反事实回复相比随机合成的回复质量更高。在对抗训练框架下，使用反事实回复来训练模型将有助于探索潜在回复空间中奖励信号更高的区域。在DailyDialog数据集上的实验结果表明，我们的方法显著优于HRED模型和传统的对抗训练方法。

题目：A Compare Aggregate Transformer for Understanding Document-grounded Dialogue

作者：马龙轩，张伟男，孙润鑫，刘挺

录用类别：Findings of EMNLP 子刊

简介：基于文档的对话是指针对给定文档进行多轮对话。先前的工作主要关注如何利用对话历史筛选合适的文档信息，利用筛选出的信息生成对话回复。但对话历史不一定与当前对话完全相关。如果不区分历史对话和当前对话之间的相关性，将导致在生成回复时引入无关噪音。因此本文提出了一种"对比聚合"的Transformer结构，将对话历史进行降噪处理，并聚合文档信息以生成回复。在公开数据集CMU_DoG上的实验表明，我们提出的模型优于最新的基线模型。代码和数据将在Github中发布。

题目：Towards Fine-Grained Transfer: An Adaptive Graph-Interactive Framework for Joint Multiple Intent Detection and Slot Filling

作者：覃立波、徐啸、车万翔、刘挺

录用类别：Findings of EMNLP 子刊

简介：在现实世界中，用户在同一个话语中通常有多个意图。遗憾的是，大多数口语理解（SLU）模型要么主要集中于单一意图场景，要么简单地将所有意图信息整合到一个统一的向量去指导槽位填充，忽略了细粒度的多意图信息整合。在本文中，我们提出了一个自适应图交互框架（AGIF），用于联合多意图检测和槽位填充。AGIF通过引入意图-槽位的图交互层，来建模槽位和多意图之间的相关性。这种交互层能够自适应地应用于每个单词，可以自动为每个槽位分别捕获相关的意图信息，从而为单词级别的槽位填充进行细粒度的意图信息指导。实验结果表明，我们的方法不仅在两套多意图数据集上获得了SOTA结果，而且还在两个单意图的数据集上实现了更好的性能。

题目：Enhancing Content Planning for Table-to-Text Generation with Data Understanding and Verification

作者：龚恒，闭玮，冯骁骋，秦兵，刘晓江，刘挺

录用类别：Findings of EMNLP 子刊

简介：基于神经网络的表格到文本生成模型可以选择和排序重要数据，并通过surface realization阶段来流畅地用文字表达它们。分析已有工作的结果，当前模型的性能瓶颈在于内容规划阶段（从表格数据中选择和排序重要内容）。在surface realization阶段，如果将输入的标准的内容规划结果替换为模型预测的内容规划时，性能将急剧下降。在本文中，我们提出以下方法来增强基于神经网络的内容规划模块：（1）通过上下文数值表示来理解数据，将对数据进行比较的概念引入内容规划阶段；（2）通过策略梯度验证所选数据序列的重要性和顺序。我们在ROTOWIRE和MLB两个数据集上评估了我们的模型。结果表明，在内容规划指标方面，我们的模型优于现有系统。

题目：CodeBERT: A Pre-Trained Model for Programming and Natural Languages

作者：冯掌印，郭达雅，唐都钰，段楠，冯骁骋，公明，寿林钧，秦兵，刘挺，姜大昕，周明

录用类别：Findings of EMNLP 子刊

简介：本文我们提出了一个叫做CodeBERT的双模态预训练模型，也是目前已知第一个适用于NL-PL(自然语言-编程语言)的预训练模型。CodeBERT通过学习一般性的表示来支持下游NL-PL相关的应用，比如自然语言代码检索，代码文档生成等。和目前大多数预训练模型类似，CodeBERT使用Transformer作为基本的网络结构。为了利用NL-PL对的双模数据和大量单模代码数据，我们采用了混合目标函数来训练CodeBERT，包括标准的掩码语言模型（MLM）和替换词检测（RTD）。实验结果表明，CodeBERT在下游的自然语言代码检索和代码文档生成任务上都取得了SOTA效果。为了进一步研究CodeBERT学到了哪些类型的知识，我们构造了第一个NL-PL的probing数据集，然后固定预训练好的参数来对模型进行检测。实验结果显示，CodeBERT比其它预训练模型在NL-PL的probing上表现更好。目前CodeBERT已开源：https://github.com/microsoft/CodeBERT。

题目：Revisiting Pre-Trained Models for Chinese Natural Language Processing

作者：崔一鸣，车万翔，刘挺，秦兵，王士进，胡国平

录用类别：Findings of EMNLP 子刊

简介：BERT及其相关变种预训练语言模型在众多自然语言处理任务中获得显著性能提升。在本文中，我们探究了这些模型在中文场景下的效果变现，并将相关模型进行开源。同时，我们也提出了一个简单有效的预训练语言模型MacBERT，并提出了MLM as correction (Mac) 预训练任务。我们在多个中文自然语言处理任务中评测了这些模型的效果，并且实验结果表明MacBERT在多个任务中达到了state-of-the-art效果。

本期责任编辑：丁　效

本期编辑：赖勇魁

哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

入门EMNLP 2020

相关数据

周明人物

周明博士，微软亚洲研究院副院长、国际计算语言学协会（ACL）候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。周明博士1985年毕业于重庆大学，1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后，随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I（哈工大1989年）、日本最有名的中日机器翻译产品J-北京（日本高电社1998年）的研制者。 1999年，周明博士加入微软亚洲研究院，不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典（必应词典）、中英翻译、微软中国文化系列（微软对联、微软字谜、微软绝句）等重要产品和项目的研发，并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来，周明博士领导研究团队与微软产品组合作开发了微软小冰（中国）、Rinna（日本）、Zo（美国）等聊天机器人系统。周明博士发表了120余篇重要会议和期刊论文（包括50篇以上的ACL文章），拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划，包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划，与高校和学术组织联合举办暑期学校和学术会议等多种形式，对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

来源：个人主页 Ming Zhou

刘挺人物

哈工大人工智能研究院副院长，国内NLP方向领军人物。

来源：百度百科

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

对抗训练技术

对抗训练涉及两个模型的联合训练：一个模型是生成器，学习生成假样本，目标是骗过另一个模型；这另一个模型是判别器，通过对比真实数据学习判别生成器生成样本的真伪，目标是不要被骗。一般而言，两者的目标函数是相反的。

来源：机器之心

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

对话系统技术

对话系统大致被分成两类：任务为导向的对话系统，帮助用户去完成特定任务，比如找商品，订住宿，订餐厅等。实现任务为导向的对话系统，主要有两类方式，流水线方法和端到端方法。非任务导向的对话系统，与用户进行互动并提供回答，简单的说，就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类，生成方法和基于检索的方法。

来源：CSDN

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程，产生结构化数据，并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性，新颖性和趣味性。

来源：维基百科

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分：命名实体识别（目标是识别和分类真实世界里的知名实体）和关系提取（目标是提取实体之间的语义关系）。概率模型/分类器可以帮助实现这些任务。

来源：机器之心

语义学技术

语义学，也作“语意学”，是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性，但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义，这里的自然语言可以是词汇，句子，篇章等等不同级别的语言单位。

来源：维基百科

Adam优化器技术

自适应矩估计（Adam）优化器是计算每个参数的自适应学习率的另一种方法。除了存储像Adadelta和RMSprop之类的过去平方梯度vtvt的指数衰减平均数之外，Adam也保持了过去梯度mtmt的指数衰减平均值，类似于动量：

来源：Kingma, D., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

文本生成技术

文本生成是生成文本的任务，其目的是使人类书写文本难以区分。

来源：paperswithcode

语言学技术

每种人类语言都是知识和能力的复合体，语言的使用者能够相互交流，表达想法，假设，情感，欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究：如何构建这样的知识体系，如何获取，如何在消息的制作和理解中使用它，它是如何随时间变化的？语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性？语言如何不同，系统的差异程度如何，我们能否在差异中找到模式？孩子如何在短时间内获得如此完整的语言知识？语言随时间变化的方式有哪些，语言变化的局限性是什么？当我们产生和理解语言时，认知过程的本质是什么？语言学研究的就是这些最本质的问题。

来源：Linguistics