DeepMind提出用于顺序决策的元学习代理模型
在论文《Meta-Learning surrogate models for sequential decision making》中,DeepMind 的研究人员提出了一种统一的概率框架,用以解决从贝叶斯优化到上下文赌博机(contextual bandits)和强化学习等顺序决策问题。概率框架通过基于概率模型的方法来实现,该方法既对观察到的数据进行了解释,又捕获到了决策过程中的不确定预测。关键的一点是,该概率模型被选择作为元学习系统,能够从相关问题的分布中学习,并使得数据有效地适应目标任务。作为该框架的一种适当实例,研究者探讨了基于统计和计算需要的神经过程应用。研究者将该框架应用于广泛的问题领域,如控制问题、推荐系统和对 RL 智能体的对抗攻击,表明这是一种高效和通用的黑盒学习方法。