本栏目每周将推荐若干篇由师生精心挑选的前沿论文,分周三、周五两次推送。
本次推荐了四篇关于个性化聊天机器人、对话状态跟踪、简单词向量模型和注意力机制的论文。
1、推荐组:CR
推荐人: 赵正宇(研究方向:人机对话)
论文题目:Assigning personality/identity to a chatting machine for coherent conversation generation
作者:Qiao Qian, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu
出处:IJCAI-ECAI 2018
论文主要相关:个性化聊天机器人
简评: 为聊天机器人赋予人物角色特征是一项很具挑战性的工作。这篇文章在生成回复时考虑了聊天机器人所处对话场景的personality或identity,主要研究内容着眼于聊天机器人在涉及自身属性时是否可以给出与人设相符的答案,同时保证了前后回答的一致性。
为了给聊天机器人设定身份,文章使用有监督的属性检测器 (Profile Detector) 判断用户的问题是否提及聊天机器人的属性设定,以及具体哪一条预设的属性值;然后为了生成包含属性值的一致的回复,文章以属性值为分割点,从属性值到回复句的结尾训练forward decoder,从属性值到回复句的开头训练backward decoder,组成一个双向解码器 (Bidirectional Decoder) ,从而解码得到一个包含属性值的完整回复;此外,为了消除训练数据与预设属性值不一致的问题,文章使用无监督的属性值定位器 (Position Detector) 来帮助模型更好地训练。此工作使用从社交媒体上抓取的通用对话数据训练生成模型,进行的实验同时使用了自动评价和人工评价,实验结果表明模型生成的回复流畅、具有正确的逻辑并且语言更加多样化。
论文链接:
http://cn.arxiv.org/abs/1706.02861
数据链接:
http://coai.cs.tsinghua.edu.cn/hml/dataset/
2、推荐组:LA
推荐人:文灏洋(研究方向:对话系统)
论文题目:Global-Locally Self-Attentive Dialogue State Tracker
作者:Victor Zhong, Caiming Xiong, Richard Socher
出处:ACL 2018
论文主要相关:对话状态跟踪、任务型对话
简评:在对话状态跟踪任务中,如何成功抽取到训练实例很少的槽值对(slot-value pair)是一个未处理完善的问题。文章通过统计发现,虽然假设一个槽值对,其训练实例很少,意味着在训练数据中出现的次数不多;但是对于一段对话,出现至少一个槽值对,其训练实例在整个训练集中很少的概率还是很高的。一旦没有做好这样的槽值对的抽取,很容易产生错误级联,从而影响状态跟踪以及任务型对话流水线下游模块的性能。在前人工作中,通常对于每一个槽值对的预测都是独立的;文章为了试图解决上述问题,采用了一个全局模块加局部模块的方法,全局模块在不同的槽上共享参数,试图捕捉不同槽值的相关性;局部模块则是每个槽独立参数,用于捕捉与某个槽相关的特征表示。模型结构主要分为两块,编码器(encoder)与计分器(scorer)。编码器通过全局编码与局部编码,全局注意力与局部注意力机制,捕捉系统动作、用户回复、与预设槽值对的相关特征。两个计分器用来衡量给定的槽值对与对话历史之间的相关性,一个是衡量与用户回复之间,另一个是衡量与历史动作之间的(因为有些回复的信息不完全)。论文在DSTC2与WoZ两个数据集上均取得了最好的结果。同时,文章中的统计数据也表明,在具有较少训练实例数量的槽值对的预测上,模型可以取得较好的结果。
论文链接:
https://arxiv.org/pdf/1805.09655.pdf
3、推荐组:QA
推荐人:郭茂盛 (研究方向:文本蕴含、自然语言推理)
论文题目:Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms
作者:Dinghan Shen, Guoyin Wang, Wenlin Wang, Martin Renqiang Min, Qinliang Su, Yizhe Zhang, Chunyuan Li, Ricardo Henao, Lawrence Carin
出处: ACL 2018
论文主要相关: 简单词向量模型
简评:现有的基于深度学习的自然语言处理模型大多利用了卷积神经网络或循环神经网络,模型参数众多、训练时间较长,该文中作者提出了一种简单词向量模型(Simple Word-Embedding-Based Model)来建立句子及文档表示,在若干自然语言处理任务(长文档分类、文本对匹配、短文本处理)上都取得了不错的结果。该模型的特点是参数少、训练快,在一些长文档分类任务上甚至超过了复杂模型。
论文链接:
http://people.ee.duke.edu/~lcarin/acl2018_swem.pdf
4、推荐组:RC
推荐人:牟文晶(研究方向:阅读理解)
论文题目:Word Attention for Sequence to Sequence Text Understanding
作者:Lijun Wu, Fei Tian, Li Zhao, JianHuang Lai, Tie-Yan Liu
出处:AAAI 2018
论文主要相关: 注意力机制、序列到序列学习
简评:注意力(Attention)机制是基于递归神经网络(RNN)的序列到序列学习框架的重要组成部分,且该机制在诸如神经机器翻译和摘要生成等许多文本理解任务中均有采用。在这些任务中,Attention机制计算出源句子(source sentence)中每个部分对于产生目标的重要程度。为了计算出这些重要程度,Attention机制会总结编码器RNN隐藏层状态中的信息,然后根据源句子的子序列表示为生成的目标词建立一个上下文向量。而这篇论文中向我们展示了一个额外的注意力机制称为词语注意力(word attention)机制,构建自己的词级表示,大大提高了序列到序列学习的性能。该Word Attention机制可以通过直接词级信息来丰富生成序列的上下文表示。此外,该文章建议使用上下文门(contextual gates)动态地组合子序列级和单词级上下文信息。从文章给出的摘要生成和神经机器翻译的实验结果表明,词级注意力机制显著改善了baseline结果。
论文链接:
https://pdfs.semanticscholar.org/b69a/c55a6cf1e675f3f84960f7bfa5946459128d.pdf