SIGIR 2017《IRGAN:大一统信息检索模型的博弈竞争》(IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models),在 GAN 的启发下,提出了 IRGAN 框架,通过极小化极大算法中的对抗性训练统一了生成式和判别式 IR 模型这两种信息检索方法学派。研究者在四个现实世界数据集上,对三个典型的 IR 任务(即网络搜索、项目推荐和问答)进行了广泛实验,在每组实验中都观察到了显著的性能提升。
本文提供了信息检索建模中两种思维流派的统一描述:聚焦于对给定查询的相关文档生成检索模型,以及重点在于预测查询文档的相关性的判别检索模型。论文提出了一个博弈理论式的极小化极大算法来迭代地优化这两个模型。一方面,旨在从标记和未标记数据中挖掘有效信号的判别模型,为训练生成模型提供了指导,以适应在给定查询的文档上隐含的相关性分布。另一方面,作为现有判别模型攻击者的生成模型,通过最小化其判别目标,以对抗的方式,生成对于判别模型来说高难度的样本。
随着这两种模型之间的竞争,论文论证了,统一框架利用了两种思维方式:(i)生成模型通过判别模型的信号学习适应文档的相关性分布;(ii)判别模型能够利用生成模型选择的未标记数据来实现对文档排序的更优评估。论文实验结果展现出显著的性能优化,在网页搜索、推荐和问答系统等各种应用中,在Precision@5和MAP上分别超越强基准算法23.96%和15.50%。
GAN模型中,判别模型和生成模型至关重要:
生成模型作用:从给定的查询候选池中选择最接近已观测样本分布的未观测样本。这里要特别说明一下,其实在GAN的原理里面,生成样本是通过学习已知样本的分布,去真正生成一个样本。而在LTR-GAN任务中,则通过对学习选择那些最优的未观测样本来作为生成样本,也就是说,这个生成的样本本身已经存在,只是之前没有标签而已。这是由排序任务特定场景造成的。
所以生成模型主要的优化目标就是最小化已观测样本与生成样本之间的差距。
判别模型作用:对于给定的样本集合,尽量准确的区分已观测样本与未观测样本。所以优化的目标就是最大化已观测样本和生成样本之间的差距。当然这些未观测样本中可能有正样本,可能有负样本
所以综合上面两个模型特点,最终的优化目标是:
论文列出了pointwise和pairwise两种情形,区分就是判别器和生成器的目标从针对Query对应的Doc变为了针对Query对应的Doc pair。因此pairwise的总优化目标为:
其中,o表示真实的非对称二元组,而o’则表示生成式IR模型生成的二元组。最终的训练过程如下
首先预训练一个初始的生成器,在提供的代码里面主要是利用log排序判别器学习动态负样本抽样。
有了这个预训练的生成器模型作为初始化模型,进行生成器和判别器的迭代训练。若干轮之后,得到最终的模型。最终判别模型和生成模型都可以拿来作为最终排序模型,具体看不同的任务效果。在IR检索任务背景下,判别模型的效果要好一些。
论文提出的IRGAN解决方案的总体逻辑总结在算法1 中。在对抗训练之前,生成器和判别器可以通过其常规模型初始化。之后,在对抗训练阶段,生成器和判别器在等式(5)和(3)中以另外的方式训练。
判别器和生成器是如何相互帮助的?对于positive的文档,无论是否被观察到了,它们由判别器 fφ(q,d) 和条件概率密度 pθ(d| q,r) 给出的相关性分数可能在一定程度上正相关。在每个训练阶段,生成器试图产生接近判别器决策边界的样本,以对下一轮训练造成迷惑,而判别器则努力对生成的样本进行判别。由于在 positive 但 unobserved(即 true-positive)的样本和(部分)观察到的 positive 样本之间存在正相关,和其他带有来自判别器信号的样本相比,生成器应该能够学习更快地上推这些positive 但不可观察的样本。
为了进一步解释这个过程,论文用水中的肥皂打个比方,如图1 所示。在未观察到的 positive 肥皂(蓝色)与观察到的 positive 肥皂(红色)之间存在着潜在的连接线(即正相关性),观察到的 positive 肥皂(红色泡泡)永久漂浮在水面(即判别器的判定边界)上。判别器起着将浮在水面上的未观察到的肥皂(蓝色)敲上水面的作用,而生成器充当选择性地将肥皂浮上水面线。即使生成器不能完全适应条件数据分布,也仍然可能存在动态平衡,这是在水的不同深度下,使得positive 和 negative 的未观察肥皂的分布取得稳定。由于未观察到的 positive 肥皂(蓝色)与水面上观察到的 positive 肥皂(红色)相连接。因此总体而言,红色泡泡最后应该能够达到比(未观察到的)negative 肥皂更高的位置。
发展历史
描述
该文章第一作者是伦敦大学学院(UCL)长期做信息检索(IR)方面基础研究的汪军教授,他学生时代的导师是 IR 界的泰斗 Stephen Robertson(概率排序原则的发明人)和当前最有影响力的教授之一 Arjen de Vries。另一位通讯作者张伟楠则主持了实验工作,他是汪军教授的学生,目前已在上海交大任教。
信息检索(IR)的典型方法是提供给定查询的文档(排序)列表。它具有广泛的应用,仅举几例,如文本检索(1999.Baeza-Yates, R)、网页搜索(2005,Chris Burges)、推荐系统(2009,Koren, Y., Bell, R., )、问答和个性化广告等。谈到 IR理论和建模,一般认为有两个主要的思维流派。
经典的思维流派是假设在文档和信息需求(由查询可知)之间存在着一个独立的随机生成过程。在文本检索中,信息检索的经典相关模型聚焦在描述如何从给定的信息需求生成(相关)文档:q → d,其中 q 是查询(例如关键字、用户信息、问题,取决于具体的 IR 应用程序),d 是其相应的文档(例如文本文档、商品、答案),箭头表示生成方向。值得注意的例子包括 Robertson 和 Sparck Jones 的二进制独立模型,其中每个单词标记都是独立生成的,以形成相关文档。
文本检索的统计语言模型考虑从文档到查询的逆生成过程:d → q,通常从文档生成查询词(即查询似然函数)。在词嵌入的相关工作中,词汇标记是从他们的上下文词汇生成的。在推荐系统应用中,论文还意识到,可以从已知的上下文项目中生成/选择推荐的目标项目(在原始文档标识空间中)。
现代的 IR 思想流派认识到了机器学习的力量,并转向了从标记的相关判断或其代表事件(如点击或评级)中学习判别(分类)解决方案。它将文档和查询联合考虑为特征,并从大量训练数据中预测其相关性或排序顺序标签:q + d → r,其中 r 表示相关性,符号+ 表示特征的组合。网页搜索的一个重大进展是学习排序(learning to rank,LTR),这是一系列机器学习技术,其中训练目标是提供给定查询(或上下文)的文档列表的正确排序。
学习排序的三个主要模式是逐点的(pointwise)、成对的(pairwise)和列表的(listwise)。对于每个文献的相关性,逐点法通过学习,逐渐逼近人类评价出的相关性;成对法旨在从任何文档对中识别更相关的文档。列表法学习优化每个查询在整个排名列表上定义的(平滑)损失函数。此外,推荐系统的最新研究进展是矩阵分解,其中用户特征和项目特征的交互模式通过向量内积被利用来进行相关性的预测。
虽然信息检索的生成模型在为特征建模(例如文本统计、文档标识符空间分布)方面理论坚实,非常成功,但它们在利用来自其他渠道的相关性信号(如链接,点击等等)方面遇到了很大的困难,这主要可以在基于互联网的应用中观察到。虽然诸如学习排序的信息检索判别模型能够从大量的标记/未标记数据中隐式地学习检索排序函数,但是它们目前缺乏从大量未标记数据中获取有用特征或收集有用信号的原则性方法,特别是从文本统计(源自文档和查询两方面)或从集合内相关文档的分布中。
以这种方式,两种类型的检索模型在极小化极大算法中扮演了比赛中的双方,都会在每一场比赛中努力提高自己以“打败”对手。请注意,论文的极小化极大算法,和现有的博弈理论式的IR方法有根本性的不同。因为现有的方法通常是试图为用户与系统之间的交互建模,而论文的方法旨在统一生成式和判别式IR模型。
已经在三个典型的IR 应用中实现了提出的极小化极大检索框架:网页搜索、项目推荐和问答。在实验中,论文发现极小化极大算法达到了不同的均衡,因此在不同的环境设定下,有不同的统一效果。通过逐点对抗训练,生成检索模型可以通过判别检索模型的训练奖励来显著提高。在 Precision@5 上,和几个强基准相比,得到的模型在网页搜索中提高了 22.56%,在项目推荐中提高了 14.38%。论文还发现,通过新的成对对抗训练,判别检索模型在很大程度上得到了生成检索模型所选择的样本的推动,和所选择的强力算法相比,在Precision@5 网络搜索上提高了 23.96%,而在 Precision@1 问答任务中提高了 3.23%。
主要事件
年份 | 事件 | 相关论文/Reference |
1999 | .Baeza-Yates, R信息检索中文本检索进行介绍 | Baeza-Yates, R., & Ribeiro-Neto, B. (1999). Modern information retrieval (Vol. 463). New York: ACM press. |
2005 | Burges, C., Shaked, T.,将信息检索用于网页搜索 | Burges, C., Shaked, T., Renshaw, E., Lazier, A., Deeds, M., Hamilton, N., & Hullender, G. (2005, August). Learning to rank using gradient descent. In Proceedings of the 22nd international conference on Machine learning (pp. 89-96). ACM. |
2009 | Koren, Y., Bell, R.,将信息检索用于推荐系统 | Koren, Y., Bell, R., & Volinsky, C. (2009). Matrix factorization techniques for recommender systems. Computer, 42(8). |
2017 | Wang, J., Yu, L., Zhang,将GANs应用于IR,拓展了IR的新领域 | Wang, J., Yu, L., Zhang, W., Gong, Y., Xu, Y., Wang, B., ... & Zhang, D. (2017, August). Irgan: A minimax game for unifying generative and discriminative information retrieval models. In Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval (pp. 515-524). ACM. |
2017 | Zhang, S., Yao, L.,对基于深度学习的推荐系统改进行回顾 | Zhang, S., Yao, L., & Sun, A. (2017). Deep learning based recommender system: A survey and new perspectives. arXiv preprint arXiv:1707.07435. |
发展分析
瓶颈
Gan在IR上的的试水为这方面的研究者打开了一扇门,目前几组结论验证IRGAN仍没达到期盼的效果.
未来发展方向
尽管目前几组结论验证IRGAN仍没达到期盼的效果,但是论文提供代码中用到的Gan模型仍是相对简单的,还有很大的优化空间。论文最可贵的是提出的一种排序对抗思想,即将经典流派与现代流派相结合。
Contributor: Cai Ruiying