Uber提出解决硬搜索难题的新算法,打破Atari游戏记录
11 月 27 日,Uber 的一篇博客引起了社区极大的关注。Uber 在技术博客中表示,他们提出了一种新的算法 Go-Explore,能够在蒙特祖玛的复仇这款游戏上最高获得 200 万的得分,平均得分 40 万左右,也就是说掌握了整个游戏。
其实,在强化学习社区,解决 Atari 游戏蒙特祖玛的复仇与 Pitfallhas 是两大挑战,因为这些游戏代表一类被称为「硬探索难题」的挑战。而 Uber 提出的这种新算法,超越了之前的顶级算法,打破了智能体在两种游戏上取得的记录。
Uber 表示有关该算法的论文与代码不久之后将会放出。
视频演示: https://www.youtube.com/watch?v=L_E3w_gHBOY
技术博客: https://eng.uber.com/go-explore/