谷歌大脑和 DeepMind 新论文:离线强化学习基准
前日,谷歌大脑和 DeepMind 的研究人员发布新论文《不插电的强化学习:离线强化学习基准》论文概要如下:强化学习的离线方法有潜力帮助弥合强化学习研究与实际应用之间的差距。它们使从离线数据集中学习策略成为可能,从而克服了现实世界中与在线数据收集相关的问题,包括成本,安全性或道德问题。在本文中,我们提出了一个称为 RL Unplugged 的基准,以评估和比较离线强化学习的方法。 RL Unplugged 包含来自多个领域的数据,包括游戏(例如 Atari 基准)和模拟的电机控制问题(例如 DM Control Suite)。数据集包括部分或完全可观察的域,使用连续或离散的动作,并且具有随机性与确定性的动态关系。我们为 RL Unplugged 中的每个域提出了详细的评估协议,并使用这些协议对监督学习和离线 RL 方法进行了广泛的分析。我们将发布所有任务的数据,并将本文中介绍的所有算法开源。