文章库 PRO通讯会员 SOTA！模型

行业内参

AI Daily

AI Daily 快讯 · 2018/11/17

DeepMind发表新论文阐述从Atari游戏的人类偏好和示范中奖励学习，表现结果超人

机器之心获悉，DeepMind发表新论文阐述在强化学习研究中，将两种方法结合起来从人类反馈中学习：专家示范和轨迹偏好。研究人员训练深度神经网络来模拟奖励功能，并使用其预测奖励在9个Atari游戏中训练基于DQN的深度强化学习代理。DeepMind的方法在7场比赛中超越了模仿学习基线并严格实现在没有使用游戏奖励的情况下，2场比赛的超人表现。

AM 7:05arxiv.org

登录后评论

暂无评论

暂无评论~

登录

PRO会员通讯

文章库 PRO通讯会员 SOTA！模型