UC 伯克利新文「评估深度强化学习中的泛化」
目前,深度强化学习(RL)在许多任务中取得了突破性的成果,但是智能体经常无法超越其训练的环境。因此,促进泛化的深度强化学习算法正在受到越来越多的关注。但是,该领域的工作需要使用各种各样的任务和实验设置进行评估。文献缺乏对不同概括方案优点的可控评估。我们的目标是促进整个社群在深度强化学习中的进展。为此,我们提出基准和实验方案,并进行了系统的实证研究。我们的框架包含多种环境,方法涵盖分布式和分布式泛化,评估包括专门解决泛化的深度强化学习算法。我们的主要发现是,「vanilla」深度强化算法比专门用于解决泛化的专门方案更为普遍。