吴攀翻译

2016/08/23 17:26

DeepMind David Silver论文：学习跨多个数量级的值

摘要：大多数学习算法相对于正被逼近的函数是不变的。我们在这里提出对学习中所使用的这些目标进行自适应的规范化。这在基于值的强化学习（value-based reinforcement learning）上很有用处——在基于值的强化学习中，当我们更新行为策略时，合适的值近似（value approximation）的量级可能会随时间改变。我们的主要动力是在学习玩 Atari 游戏上的前期成果，其中的奖励（ reward）被限定在了一个预先确定的范围内。这种截取（clipping）有利于使用单一的学习算法学习许多不同的游戏，但被截取过的奖励函数可能会导致不同性质的行为。使用这种自适应规范化（adaptive normalization），我们可以在不降低整体表现的情况下移除这种特定域的启发法（domain-specific heuristic）。

论文地址：Learning values across many orders of magnitude

理论论文理论DeepmindDavid Silver强化学习

推荐文章

奇点机智CTO林德康：详解2018机器阅读理解技术竞赛冠军模型

奇点机智CTO林德康：详解2018机器阅读理解技术竞赛冠军模型

进击的YOLOv3，目标检测网络的巅峰之作 | 内附实景大片

进击的YOLOv3，目标检测网络的巅峰之作 | 内附实景大片

读者喜欢看什么文章？腾讯微信融合时间过程与内容特征寻找答案

读者喜欢看什么文章？腾讯微信融合时间过程与内容特征寻找答案

登录后评论

暂无评论

暂无评论~