引言
随着互联网技术和产业的迅速发展,推荐系统(Recommender System)成为网络应用中不可缺少的重要组成部分,是当前解决信息过载问题的最有效的方法之一,因此也受到了学界和工业界的广泛关注。
近年来,深度学习技术在许多领域展现出非凡的应用效果。然而,现有的将深度学习应用到推荐系统任务的工作主要集中在探索和引入不同的神经网络框架,在模型学习算法方面的研究相对较少。
为了优化模型,现有的工作往往使用负采样策略(Negative Sampling)进行训练。虽然负采样方便并且易于实现,但是许多最近的研究表明负采样策略的鲁棒性较差,可能会忽略掉重要的训练样例从而导致模型无法收敛到最优的状态。
在近两年,清华大学信息检索课题组(THUIR)首次探索了将非采样策略(Non-Sampling, Whole-data based Learning)应用到基于神经网络的推荐系统中。
通过严格的数学推理,我们设计了一系列高效的非采样学习算法,使得整体数据中学习的时间复杂度在理论数量级上有所降低。基于所设计的高效非采样算法框架,我们分别设计了不同应用场景下的神经网络推荐模型,并在多个现实数据集上相比于已有 state-of-the-art 方法在训练时间和模型表现上均取得了非常显著的效果,包括:
1. 基础场景 (只使用用户和商品 ID 信息):推荐效果提升 5% 以上,训练时间快 30 倍以上(TOIS 录用);
2. 基于社交关系的推荐系统:推荐效果提升 4% 以上,训练时间快 7 倍以上(SIGIR 2019 录用);
3. 基于多行为数据的推荐系统:推荐效果提升 40% 以上,训练时间快 10 倍以上(AAAI 2020 录用);
4. 包含特征(feature)和上下文(context)的推荐系统:推荐效果提升 9% 以上,训练时间快 5 倍以上(WWW 2020 录用)。
接下来我们简要介绍相关工作的主要内容。