2020/07/30 10:29

金金作者阿里巴巴研究实习生单位推荐系统研究方向

最新进展概述：澄清式提问辅助理解信息检索中的用户意图

用户使用搜索引擎的过程中，通常很难用单一的查询表达复杂的信息需求。在真实应用的过程中，用户需要根据当前搜索引擎的展示结果反复修改查询词。这一过程极大地增加了用户搜索的负担，影响了用户的搜索体验。

近期，澄清式提问（Asking Clarifying Questions）的提出为该问题的解决提供了新的思路。该方法根据用户给出的查询提出相关问题，从而更好地理解用户意图，展示更符合用户需求的排序结果，提高用户对搜索过程的满意度。本文将概述该方向的一些最新研究进展。

一、从任务提出到简单实现

论文标题：Asking Clarifying Questions in Open-Domain Information-Seeking Conversations

论文来源：SIGIR 2019

论文链接：https://arxiv.org/abs/1907.06554

本文发表于 SIGIR 2019，该论文首先提出了“通过澄清式提问理解信息检索中的用户意图”的任务；然后针对已有的查询，根据搜索引擎的查询词建议或已知的不同用户意图，人工构造澄清式问题和答案；在此基础上提出了根据查询和历史问答记录检索并选择当前问题的深度学习模型 BERT-LeaQuR 和 NeuQS。

1.1 任务流程

作者首先定义了搜索引擎中澄清式提问的流程（如图1所示）。根据用户初始的查询，系统建立用户需求表示，使用该需求表示分别检索相关文档和生成并选择可能提出的澄清式问题。用户根据系统展示的澄清式问题给出回答，系统则联合建模问答记录和查询，生成新的用户需求表示，以更好的检索相关文档。

▲ 图1. 搜索引擎中澄清式提问的流程

1.2 数据收集

作者此后建立了第一个用于搜索引擎澄清式提问的数据集 Qulac。具体构造流程如下：

形成查询-意图集合：作者使用 TREC Web track 09-12 中的 198 条主题作为初始查询，并将各主题分解为它包含的不同方面作为用户意图。统计信息显示，每个查询平均有 3.85 项意图，完整数据集共包含 762 项查询-意图对。
提出澄清式问题：作者邀请了多名标注人员，使其模仿对话代理的行为。标注人员根据已有的各主题包含的意图或搜索引擎自动生成的查询推荐为依据，为各查询提出澄清式问题。
编辑问题答案：作者邀请另一组标注人员，针对每一个澄清式问题，在给定查询和意图描述的情况下，手动编辑问题答案。

经过对无效问题的过滤，统计信息显示，完整数据集共包含 2639 条澄清式问题与 10277 项问题-答案对。

1.3 问题检索-选择模型

二、生成澄清式问题和候选答案

论文标题：Generating Clarifying Questions for Information Retrieval

论文来源：WWW 2020

论文链接：https://dl.acm.org/doi/pdf/10.1145/3366423.3380126

本文发表于 WWW 2020，主要贡献在于提出了生成澄清式问题和候选答案的方法。具体来说，本文首先提出了澄清问题的分类，然后使用模版补全算法生成澄清式问题，在此基础上，将这些问题作为模型训练的弱监督信号，训练生成澄清式问题的监督学习算法和强化学习算法，最后讨论了候选问题的选择方法。

2.1 监督学习算法QLM

▲ 图2. 问题补全模版

最后，作者使用简单的 encoder-decoder 模型，首先建模查询和它的各个 aspects，然后解码生成新的问题，具体算法流程如下图所示：

▲ 图3. QLM算法框架

2.2 强化学习算法QCM

三、用户交互行为分析

论文标题：Analyzing and Learning from User Interactions for Search Clarification

论文来源：SIGIR 2020

论文链接：https://arxiv.org/abs/2006.00166

本文发表于 SIGIR 2020，分析了澄清式问题在真实搜索引擎应用过程中对用户的影响。具体来说，作者首先分析了用户更倾向于使用澄清式问题的情景（包括澄清式问题自身的特征和查询特征），然后分析了用户在候选答案中的点击偏差，最后使用用户交互数据优化澄清式问题选择模型。

3.1 交互行为分析

作者使用上文提及的第二篇论文中提到的问题生成方法，在真实的搜索环境中生成澄清式问题，总结了以下因素对用户参与澄清式问题的影响：

问题生成模版：更具体的问题会有更多的用户参与；
候选答案数量：候选答案超过2个后用户参与程度变化不大；
答案选择的分布：问题答案点击分布的熵最大或中等水平时，用户参与程度最高；
查询长度：查询较长时，用户参与程度较高；
查询类型：自然语言问题类的查询，用户常参与澄清式问题；
历史点击数据：被点击的 URL 数量和点击分布的熵越大时，用户参与程度越高。

同时作者邀请标注人员针对使用澄清式问题前后的页面进行满意度层面打分（Good, Fair, Bad 三个等级）。结果发现使用澄清式问题后，用户的满意度显著提高。

3.2 问题选择模型

▲ 图4. 问题选择表示模型架构图

作者在用户点击数据上训练重排序任务，并在用户满意度数据上训练问题选择任务，取得了较好的效果。

四、基于Transformer的多任务多资源框架

论文标题：Guided Transformer: Leveraging Multiple External Sources for Representation Learning in Conversational Search

论文来源：SIGIR 2020

论文链接：https://arxiv.org/abs/2006.07548

本文发表于 SIGIR 2020，提出了一种基于 Transformer 的多任务多资源框架，用于解决下一问题预测和文档排序任务。

具体来说，作者利用两种类型的外部 source（即伪相关反馈获得的文本和澄清式问答记录），结合查询与目标文本/问题，输入 BERT 和 Guided Transformer 模型，生成相关性表示信号，预测目标问题的被选择概率或目标文本的相关性标签。

另外，作者结合意图描述定义任务实现多任务学习，提升模型效果。该框架在两项任务上均取得 SOTA 效果。

4.1 Guided Transformer

Guided Transformer 通过 Input Self Attention, Multi Source Self Attention 和 Multi Source Cross Attention 为输入与外部资源生成新的表示，具体流程如下图：

▲ 图5. Guided Transformer图解

4.2 多资源多任务学习框架

该框架在给定查询，对应的意图集合和历史问答记录的情况下，计算目标问题的被选择概率或目标文本的相关性标签。

具体来说，该框架将查询、澄清式问答和目标文本拼接输入 BERT 模型（输入形式：[CLS] query tokens [SEP] clarifying question tokens [SEP] user response tokens [SEP] document tokens [SEP]），并通过多层 Guided Transformer layer，将 [CLS] token 作为相关性表示信号，预测最终标签。

此外，该框架在目标任务（即下一问题预测或文档排序任务）的基础上，通过意图定义这一辅助任务的联合学习提升模型效果。

▲ 图6. 多资源多任务框架流程图

五、总结

本文概述了信息检索中澄清式提问的一些最新进展，研究者们完成了“任务提出-问题生成算法-用户行为分析-问题选择/文本排序框架”等工作，不难发现澄清式提问对用户意图的理解帮助较大。

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论信息检索用户意图

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

多任务学习技术

多任务学习是机器学习的一个子领域，在该子领域中，可以同时解决多个学习任务，同时可以利用任务之间的共同点和不同点。与单独训练模型相比，这可以提高特定于任务的模型的学习效率和预测准确性。

来源：维基百科

答案选择技术

Answer selection是QA中的一个重要任务。基本定义是：给出问题q和该问题的答案候选池（s是池大小），目标是从答案池中找到可以准确回答问题最佳答案候选。这项任务的主要挑战是正确的答案可能不会直接与问题共享词汇单位。相反，它们可能只是在语义上相关。此外，答案有时很嘈杂，并且包含大量不相关的信息。

来源：知乎

文档排序技术

排序学习技术是构建排序模型的机器学习方法，在信息检索、自然语言处理，数据挖掘等机器学场景中具有重要作用。排序学习的主要目的是对给定一组文档，对任意查询请求给出反映相关性的文档排序。

来源：腾讯云