ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型
在蚂蚁金服被 ICML 2019 接收的这篇论文《Generative Adversarial User Model for Reinforcement Learning Based Recommendation System》中,作者们提出用生成对抗用户模型作为强化学习的模拟环境,先在此模拟环境中进行线下训练,再根据线上用户反馈进行即时策略更新,以此大大减少线上训练样本需求。此外,作者提出以集合(set)为单位而非单个物品(item)为单位进行推荐,并利用 Cascading-DQN 的神经网络结构解决组合推荐策略搜索空间过大的问题。