WWW 2020 | 信息检索中的对话式问题建议

论文标题：

Leading Conversational Search by Suggesting Useful Questions

论文来源：

WWW 2020

论文链接：

https://www.microsoft.com/en-us/research/uploads/prod/2020/01/webconf-2020-camera-rosset-et-al.pdf

一、简介

本文由微软 AI 研究院发表于 WWW 2020，当前对话式搜索引擎主要存在两个挑战：1. 用户仍然习惯使用查询词而并非自然语言进行搜索；2. 搜索引擎的能力需要超出仅解决当前查询的问题。

本文提出了对话式问题建议（Conversatioal question suggestion）这一新的方式，帮助用户通过更接近于对话式检索的方式，获得更好的搜索体验。

本文首先提出了更加合理的评价指标 usefulness 替代 relevance，以衡量建议问题的性能；然后提出了基于 BERT 的排序模型和基于 GPT-2 的生成模型，从而针对当前的查询生成问题，这些模型在离线的 usefulness 评价和在线的 A/B test 中相比于原来 Bing 上线的系统都有显著提升。

二、从相关性到有用性

考虑到对话式问题推荐不仅仅需要保证推荐的问题和当前的查询之间具有相关性，同时也希望推荐的问题能和用户下一阶段可能构造的查询词相契合，从而使得用户可以通过该功能获得更好的体验，作者定义了五种不符合有用性的问题类别如下，用以标注问题的有用性：

Misses Intent：该问题完全和主题不符，或者不是用准确的自然语言进行表达。
Too Specific：问题过于具体，导致能覆盖的人群较少。
Prequel：问题的答案是用户已知的内容。
Duplicate with Query：提问和查询完全重复。
Duplicate with Answer：提问可以被当前查询中所显示的结果解答。

三、问题推荐框架

本文分别提出了基于排序和基于生成的两种问题推荐框架。前者基于 BERT 模型，将查询和问题拼接输入 BERT 模型完成排序，并通过正负样本对微调模型；而后者基于 GPT-2 模型，通过将查询作为模型的输入直接输出建议的问题，并使用正样本的最大对数似然训练的方法微调模型。两者的公式表达如下：

二者均在以下四个任务上完成训练：

相关性分类：该任务针对一个具体的“查询-问题对”判断它们是否相关，是一个二分类问题。
相关点击率预测：该任务抽取了同一查询下，两个具有点击率显著差异的问题（30%以上），目标是模型能准确预测出点击率更高的问题。
点击预测：该任务针对一个具体的“查询-问题对”，判断在显示该查询的情况下，该问题是否会被点击，是一个二分类问题。该任务可以被认为是该模型的主任务。
用户搜索轨迹模拟：该部分首先抽取出一些真实搜索引擎中的会话，并借助下一查询预测任务，使得我们的模型预测下一查询中的用户意图。具体来说 GPT-2 模型直接根据之前的查询生成下一查询，而 BERT 模型则对最可能出现的模型进行排序筛选。

四、实验

本文首先对比了仅使用当前的在线系统 online，仅使用主任务训练模型和完整的模型，可以看到仅使用主任务对模型训练两种方法均不如当前的在线系统，而完整的模型则大大提升了问题建议的用户满意度。

而通过在线的 A/B test 测试，发现提出的模型在真实的 Bing 搜索引擎上上线后，问题的点击率上升了 6.4%-8.9%，直接证明了模型的有效性。

五、结论

本文首先提出了对话式问题建议（Conversatioal question suggestion）这一新的方式，帮助用户获得更好的搜索体验。本文此后提出了更加合理的评价指标 usefulness 替代 relevance，以衡量建议问题的性能。

然后提出了基于 BERT 的排序模型和基于 GPT-2 的生成模型，从而针对当前的查询检索或生成建议的问题，这些模型在离线的 usefulness 评价和在线的 A/B test 中相比于原来 Bing 的在线系统都有显著提升，证明了模型的有效性。

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论信息检索自然语言处理