1. 摘要
本文介绍以文档为额外知识的生成式对话系统。根据当前研究中对文档的不同处理方式,我们将其分为三类(以句子为单位建模,直接建模文档,文档结构化处理),对每个类别进行了简要的介绍。最后我们总结了该研究领域面临的挑战,希望对相关研究者有所帮助。
2. 正文
在人机对话研究中,早期的生成式模型容易给出通用且缺少信息含量的回复,通过使用多样性强化策略或者大规模参数的模型能够很大程度上改善这个问题。此外,在生成回复时引入外部知识也是一种增加回复信息含量的方法。外部知识是除对话上下文之外的信息,可以是结构化的知识图、非结构化的文本甚至多媒体资源等。将非结构化文本知识融入到对话系统中是目前的研究热点。例如Facebook不久前发布了具有同理心、知识、画像的Blender对话系统,以及引入外部文本知识的DSTC(Dialog System Technology Challenge)和Alexa(Alexa Prize Socialbot Challenge)等挑战。本文介绍以文档为额外知识的生成式对话系统,文档通常指包含多个有连贯语义关系句子并且长度在数百字以上的文本。根据对文档的不同处理方式,我们将其分为以下三类。
2.1 以句子为单位建模
受到文档长度的影响,直接对文档进行操作在建模时很难定位到适合对话的信息。因此,本部分介绍的方法使用文档中的句子(或子句)作为对话中融入文档信息的基本单位。例如Wizard of Wikipedia(WoW)将维基百科文档作为外部知识来讨论开放域的话题。其做法继承了机器阅读理解(MC)中的处理,都是先用检索技术(倒排索引,TF-IDF等)从文档数据库中选出候选文档,再对候选文档进行操作。不同的是,WoW使用对话历史进行查询,并且只截取检索结果的首段,将段落以句子为单位拆分,使用这些句子(拼接上标题)作为融入知识的候选。排除检索过程,这种做法类似于很多基于短文本(句子)的对话生成工作。在一些独立的候选事实性描述句子中进行选择,缺少对长文档句子间语义关系的考量。
2.2 直接建模文档
类似于CbR,CMU_DoG[7]对话中使用的文档知识也是零散和未标注的。在面临前面提到的文档知识定位困难问题时,如何进行知识筛选就顺理成章地成为关注的焦点。例如在CMU_DoG数据上的ITDD模型[8](如图5),利用Transformer结构将文档和对话递进式地逐步建模并进行知识筛选;在回复生成中,使用双层的解码器,第一层用于构建基础回复,第二层在基础回复中进一步加入文档信息,以图更好的知识利用效果。
2.3 文档结构化处理
3. 未来挑战
该研究领域目前面临的挑战有:
文档知识的有效利用。直接对长文档建模导致信息提取困难,而将文档拆分为句子破坏了文档结构和句子间的语义联系。如何更有效地提取文档知识,是当前最直接的一个挑战。
对话质量的自动评价问题。当前的自动评价指标无法反映对话质量的好坏,而人工评价方法代价过高,这个现状限制了开放域对话系统研究的发展。我们需要一种代价低廉,并且能够与人工评价保持一致的自动评价方式。这个评价方式需要结合对话的目的,评价对话的有趣程度、信息含量、一致性等问题。
多媒体资源作为外部知识。将文字、图片、视频等多媒体资源作为外部知识加入到对话中。虽然目前有一些基于图片/视频的对话数据,但其任务的定义通常不满足开放域的要求,规模和数量上也仍然不足。
终身学习问题。对话系统能否持续地利用与外部资源的交互进行自身的更新和优化,能否利用已得到的“技能”融合不同结构的资源,是该领域的一个未来挑战。
4. 总结
本文介绍了以非结构化文档为外部知识的对话研究,从如何处理文档的角度介绍了三类不同的处理方式和研究成果,最后列举了当前面临的一些挑战。随着训练资源的增加和多媒体资源的开发,利用外部知识的对话研究在未来将会得到更多的关注。
参考文献
Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, Jason Weston. Wizard of Wikipedia: Knowledge-Powered Conversational Agents. ICLR 2019.
[2]Wen Zheng, Ke Zhou: Enhancing Conversational Dialogue Models with Grounded Knowledge. CIKM 201.
[3]Nikita Moghe, Siddhartha Arora, Suman Banerjee, Mitesh M. Khapra. Towards Exploiting Background Knowledge for Building Conversation Systems. EMNLP 2018
[4]Byeongchang Kim, Jaewoo Ahn, Gunhee Kim: Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue. ICLR 2020.
[5]Lianhui Qin, Michel Galley, Chris Brockett, Xiaodong Liu, Xiang Gao, Bill Dolan, Yejin Choi, Jianfeng Gao. Conversing by Reading: Contentful Neural Conversation with On-demand Machine Reading. ACL 2019.
[6]Zeqiu Wu, Michel Galley, Chris Brockett, Yizhe Zhang, Xiang Gao, Chris Quirk, Rik Koncel-Kedziorski, Jianfeng Gao, Hannaneh Hajishirzi, Mari Ostendorf, Bill Dolan. A Controllable Model of Grounded Response Generation. CoRR 2020.
[7]Kangyan Zhou, Shrimai Prabhumoye, Alan W. Black. A Dataset for Document Grounded Conversations. EMNLP 2018.
[8]Zekang Li, Cheng Niu, Fandong Meng, Yang Feng, Qian Li, Jie Zhou. Incremental Transformer with Deliberation Decoder for Document Grounded Conversations. ACL 2019.
[9]Pengjie Ren, Zhumin Chen, Christof Monz, Jun Ma, Maarten de Rijke. Thinking Globally, Acting Locally: Distantly Supervised Global-to-Local Knowledge Selection for Background Based Conversation. AAAI 2020.
[10]Zhibin Liu, Zheng-Yu Niu, Hua Wu, Haifeng Wang. Knowledge Aware Conversation Generation with Explainable Reasoning over Augmented Graphs. EMNLP-IJCNLP 2019.
[11]Jun Xu, Zeyang Lei, Haifeng Wang, Zheng-Yu Niu, Hua Wu, Wanxiang Che. Enhancing Dialog Coherence with Event Graph Grounded Content Planning. IJCAI 2020.
本期责任编辑:崔一鸣
本期编辑:顾宇轩