机器之心原创

2017/02/05 16:02

「人工智能研学社· 强化学习组」第三期：效率强者 - 异步方法

本期研读论文：Asynchronous Methods for Deep Reinforcement

Learning (ICML 2016)

学习步骤：

研读材料
自学要点

【文章简介】

Mnih 等人提出了四个强化学习方法的异步方法，包括 Q-learning、SARSA、n-step Q-learning、高级 actor-critic 算法。其中，异步的高级 actor-critic (A3C) 算法的表现最好。并行的执行器使用不同的探索策略来稳定训练过程，所以经历回放 (experience replay) 并没有被使用。与大多数深度学习算法不同，异步方法能够在单个多核 CPU 上运行。以 Atari 游戏为例，A3C 能够在更快的速度下，表现得与之前的算法旗鼓相当，甚至更好。A3C 在连续动态控制问题上也取得了成功：包括赛车游戏 TORCS、物理控制游戏 MujoCo、以及迷宫游戏 Labyrinth。在 Labyrinth 中，随机的 3D 迷宫直接通过视觉输入，每一个章节中，玩家都要面对全新的迷宫，因此该算法也需要学习一个能够探索随机迷宫的指导性战略。

论文链接：https://arxiv.org/pdf/1602.01783.pdf

【其它阅读材料】

Sutton new book Chapter 13, Policy Gradient Methods
David Silver, Reinforcement Learning, Lecture 7
Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)

推荐者介绍:

本期研习材料由 Yuxi Li 博士推荐。 Yuxi Li 博士是加拿大阿尔伯塔大学（University of Alberta）计算机系博士、博士后。致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授；在美国波士顿任资深数据科学家等。目前在筹备深度学习相关的创业项目。Yuxi Li 博士也将参与专家答疑。

机器之心曾经发表过的介绍强化学习的文章：

加入机器之心强化学习小组：

对于强化学习这样一个既有历史沉淀又有未来前景的技术领域，你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累，但要进入一个新的领域，你可能还是常常感到：

找不到合适的学习资料
有学习动力，但无法坚持
学习效果无法评估
遇到问题缺乏讨论和解答的途径

因此，为了帮助“强化学习新手”进入这一领域，机器之心发起了一个互助式学习小组——「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。

面向人群：有一定的机器学习技术基础，在强化学习方面处于学习阶段的学习者
学习形式：学习资料推荐、统一进度学习（教材或论文）、群组讨论、专家答疑、讲座等。
加入方式：

添加机器之心小助手微信，并注明：加入强化学习组
完成小助手发送的入群测试（题目会根据每期内容变化），并提交答案，以及其他相关资料（教育背景、从事行业和职务、人工智能学习经历等）
小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」

入群测试 QUIZ

1）教育背景 2）从事行业和职务 3）人工智能学习经历 4）强化学习学习经历

请解释：什么是 actor-critic 方法？
在异步方法中，为什么我们不需要通过经历回放 (experience replay) 来稳定学习过程？

入门强化学习深度研学社理论DQNactor-critic model

推荐文章

研学· 强化学习 | 围观乌镇比赛，学习AlphaGo核心技术

研学· 强化学习 | 围观乌镇比赛，学习AlphaGo核心技术

深度强化学习的 18 个关键问题

深度强化学习的 18 个关键问题

想本科入读人工智能专业，这篇文章送给准备填志愿的你

想本科入读人工智能专业，这篇文章送给准备填志愿的你

登录后评论

暂无评论

暂无评论~