CMU、谷歌研究新作,「行为正则化的离线强化学习」
近日CMU发布与谷歌研究人员合著的关于强化学习研究新作,以下为论文概述:在强化学习研究中,许多实际应用程序对环境的访问仅限于已记录的固定脱机数据集。在这种情况下,标准的 RL 算法显示出发散或以其他方式产生较差的性能。因此,近期许多工作提出了针对这些问题的补救措施。在这项工作中,我们引入了一个通用框架,即行为正则化 actor-critic(BRAC),以经验方式评估最近提出的方法以及跨各种离线连续控制任务的许多简单基准。我们研究发现,近期方法引入的许多技术复杂性对于实现强大的性能都是不必要的。