Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

马龙轩作者

以文档为额外知识的生成式对话

1. 摘要

本文介绍以文档为额外知识的生成式对话系统。根据当前研究中对文档的不同处理方式,我们将其分为三类(以句子为单位建模,直接建模文档,文档结构化处理),对每个类别进行了简要的介绍。最后我们总结了该研究领域面临的挑战,希望对相关研究者有所帮助。

2. 正文

在人机对话研究中,早期的生成式模型容易给出通用且缺少信息含量的回复,通过使用多样性强化策略或者大规模参数的模型能够很大程度上改善这个问题。此外,在生成回复时引入外部知识也是一种增加回复信息含量的方法。外部知识是除对话上下文之外的信息,可以是结构化的知识图、非结构化的文本甚至多媒体资源等。将非结构化文本知识融入到对话系统中是目前的研究热点。例如Facebook不久前发布了具有同理心、知识、画像的Blender对话系统,以及引入外部文本知识的DSTC(Dialog System Technology Challenge)和Alexa(Alexa Prize Socialbot Challenge)等挑战。本文介绍以文档为额外知识的生成式对话系统,文档通常指包含多个有连贯语义关系句子并且长度在数百字以上的文本。根据对文档的不同处理方式,我们将其分为以下三类。

2.1 以句子为单位建模

受到文档长度的影响,直接对文档进行操作在建模时很难定位到适合对话的信息。因此,本部分介绍的方法使用文档中的句子(或子句)作为对话中融入文档信息的基本单位。例如Wizard of Wikipedia(WoW)将维基百科文档作为外部知识来讨论开放域的话题。其做法继承了机器阅读理解(MC)中的处理,都是先用检索技术(倒排索引,TF-IDF等)从文档数据库中选出候选文档,再对候选文档进行操作。不同的是,WoW使用对话历史进行查询,并且只截取检索结果的首段,将段落以句子为单位拆分,使用这些句子(拼接上标题)作为融入知识的候选。排除检索过程,这种做法类似于很多基于短文本(句子)的对话生成工作。在一些独立的候选事实性描述句子中进行选择,缺少对长文档句子间语义关系的考量。

图1 在编码后进行知识筛选的TMN模型[1]解决WoW任务的模型通常关注如何筛选候选句子。例如Facebook AI Research在ICLR 2019上提出的TMN模型[1](如图1)。从数据库中检索出候选句子后,TMN将候选句子与对话上下文输入编码器,交互编码结果后选出权重最高的句子进入端到端的生成过程。
图2 在解码时进行知识筛选的TED模型[2]区别于TMN在编码后进行知识筛选的做法,诺丁汉大学在CIKM 2019上提出的TED模型[2]在解码阶段对候选知识进行权重分配和筛选(如图2)。
图3 使用序列化知识筛选机制的SKT模型[4]Holl-E[3]是另一个适合用句子为单位融入知识的对话任务。它在文档中标注了对话过程中使用的知识span(句子or子句)。当使用标注信息时,该任务可以看作是MC任务基础上的一个扩展,即先挑选出合适的span,再基于这个span生成流畅的回复。与WoW不同之处在于,Holl-E可以将文档拆分成句子,也可以选择对文档直接进行建模。首尔国立大学的研究者在ICLR 2020上发表了SKT模型[4](如图3),并在WoW和Holl-E上进行了实验。作者认为在知识筛选的过程中需要逐步考虑对话历史的影响,因此SKT使用序列化的知识筛选思路,让模型根据对话的进行逐步修正要筛选的文档知识。
图4 生成信息可控的模型CbR[5]数据集与WoW不同,其对话中使用的文档知识可能是词/词组/句子或者它们的组合,并且没有标注。华盛顿大学和微软的研究者们[6]认为虽然当前的多样性强化和大规模参数技术有能力解决回复信息度的问题,但回复包含的信息可能是对话上下文无关或者虚假的。因此,作者首先使用规则抽取或者MC方法检索出对话上下文和文档中共现的关键词/词组,之后只将含有这些关键词/词组的文档句子作为外部知识的候选,最后在GPT-2结构中利用这些共现关系简化注意力操作(如图4),从而控制有效的信息用于回复生成。

2.2 直接建模文档

图5 递进式编码&双层解码的ITDD模型[8]类似于CbR,CMU_DoG[7]对话中使用的文档知识也是零散和未标注的。在面临前面提到的文档知识定位困难问题时,如何进行知识筛选就顺理成章地成为关注的焦点。例如在CMU_DoG数据上的ITDD模型[8](如图5),利用Transformer结构将文档和对话递进式地逐步建模并进行知识筛选;在回复生成中,使用双层的解码器,第一层用于构建基础回复,第二层在基础回复中进一步加入文档信息,以图更好的知识利用效果。

图6 使用主题转移向量指导生成的GLKS模型[9]由山东大学和阿姆斯特丹大学研究者们合作发表在AAAI 2020上的GLKS模型[9]模型(如图6)在Holl-E数据上进行知识筛选。模型在对输入信息(对话和文档)进行交互后采用一种全局指导局部的思路,使用对话历史从文档中筛选出重要的n-gram信息(图中的Topic Transition Vector)来指导后续的生成过程。

2.3 文档结构化处理

图7 将非结构化文档嵌入到结构化图谱中的AKGCM模型[10]将非结构化文本与结构化知识相结合,利用结构化知识易于推理的优势辅助对话任务的研究已经有一定基础。这类做法通常有两个关键点:一是如何将非结构化文本结构化;二是如何利用构建好的结构化知识。在基于文档的对话中,百度的研究者们在EMNLP 2019发表了AKGCM模型[10],它将Holl-E中的文档拆分为句子,根据句子包含的实体将其链接到知识图谱的节点上,得到了增强的知识图,在知识图上利用强化学习进行推理找到构建回复需要的信息(如图7)。
图8 将文档处理成事件图辅助对话连贯性的模型[11]此外,哈工大SCIR与百度合作发表在IJCAI 2020上的论文[11]提出一种提取文档中基于谓词的事件,构建事件图,通过强化学习在事件图上进行推理的方法。选择符合对话逻辑的事件节点进行回复生成,可以保证对话的连贯性(如图8)。

3. 未来挑战

该研究领域目前面临的挑战有:

  1. 文档知识的有效利用。直接对长文档建模导致信息提取困难,而将文档拆分为句子破坏了文档结构和句子间的语义联系。如何更有效地提取文档知识,是当前最直接的一个挑战。

  2. 对话质量的自动评价问题。当前的自动评价指标无法反映对话质量的好坏,而人工评价方法代价过高,这个现状限制了开放域对话系统研究的发展。我们需要一种代价低廉,并且能够与人工评价保持一致的自动评价方式。这个评价方式需要结合对话的目的,评价对话的有趣程度、信息含量、一致性等问题。

  3. 多媒体资源作为外部知识。将文字、图片、视频等多媒体资源作为外部知识加入到对话中。虽然目前有一些基于图片/视频的对话数据,但其任务的定义通常不满足开放域的要求,规模和数量上也仍然不足。

  4. 终身学习问题。对话系统能否持续地利用与外部资源的交互进行自身的更新和优化,能否利用已得到的“技能”融合不同结构的资源,是该领域的一个未来挑战。

4. 总结

本文介绍了以非结构化文档为外部知识的对话研究,从如何处理文档的角度介绍了三类不同的处理方式和研究成果,最后列举了当前面临的一些挑战。随着训练资源的增加和多媒体资源的开发,利用外部知识的对话研究在未来将会得到更多的关注。

参考文献

[1]

Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, Jason Weston. Wizard of Wikipedia: Knowledge-Powered Conversational Agents. ICLR 2019.

[2]

Wen Zheng, Ke Zhou: Enhancing Conversational Dialogue Models with Grounded Knowledge. CIKM 201.

[3]

Nikita Moghe, Siddhartha Arora, Suman Banerjee, Mitesh M. Khapra. Towards Exploiting Background Knowledge for Building Conversation Systems. EMNLP 2018

[4]

Byeongchang Kim, Jaewoo Ahn, Gunhee Kim: Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue. ICLR 2020.

[5]

Lianhui Qin, Michel Galley, Chris Brockett, Xiaodong Liu, Xiang Gao, Bill Dolan, Yejin Choi, Jianfeng Gao. Conversing by Reading: Contentful Neural Conversation with On-demand Machine Reading. ACL 2019.

[6]

Zeqiu Wu, Michel Galley, Chris Brockett, Yizhe Zhang, Xiang Gao, Chris Quirk, Rik Koncel-Kedziorski, Jianfeng Gao, Hannaneh Hajishirzi, Mari Ostendorf, Bill Dolan. A Controllable Model of Grounded Response Generation. CoRR 2020.

[7]

Kangyan Zhou, Shrimai Prabhumoye, Alan W. Black. A Dataset for Document Grounded Conversations. EMNLP 2018.

[8]

Zekang Li, Cheng Niu, Fandong Meng, Yang Feng, Qian Li, Jie Zhou. Incremental Transformer with Deliberation Decoder for Document Grounded Conversations. ACL 2019.

[9]

Pengjie Ren, Zhumin Chen, Christof Monz, Jun Ma, Maarten de Rijke. Thinking Globally, Acting Locally: Distantly Supervised Global-to-Local Knowledge Selection for Background Based Conversation. AAAI 2020.

[10]

Zhibin Liu, Zheng-Yu Niu, Hua Wu, Haifeng Wang. Knowledge Aware Conversation Generation with Explainable Reasoning over Augmented Graphs. EMNLP-IJCNLP 2019.

[11]

Jun Xu, Zeyang Lei, Haifeng Wang, Zheng-Yu Niu, Hua Wu, Wanxiang Che. Enhancing Dialog Coherence with Event Graph Grounded Content Planning. IJCAI 2020.

本期责任编辑:崔一鸣

本期编辑:顾宇轩

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

理论生成式对话
暂无评论
暂无评论~