对抗逆增强学习在自动驾驶决策中的应用
生成对抗式模仿学习(GAIL)是从演示中学习顺序控制策略的有效方法,对抗性逆向强化学习(AIRL)与 GAIL 相似,但同时也学习奖励功能,并具有更好的训练稳定性。但是,在以前的研究中,AIRL 大多被应用在人工环境中的机器人控制中。加州大学伯克利分校、瑞典哥德堡查尔姆斯理工大学和北京大学的研究人员最近发表了一篇新论文,在文中,他们将 AIRL 应用于一个实际且具有挑战性的问题—自动驾驶的决策制定中,并通过语义奖励 AIRL 来提高其性能。他们使用四个指标来评估其在模拟驾驶环境中的学习表现。结果表明,车辆代理可以从头开始学习良好的决策行为,并可以达到与专家相当的性能水平。此外,与 GAIL 的比较表明,AIRL 比 GAIL 收敛更快,能实现更好和更稳定的性能。