近日,人工智能初创公司 Vicarious 在官网了发表了一篇名为《General Game Playing with Schema Networks》的文章,提出了一种可以进行游戏泛化的新型网络:图式网络。该网络可通过训练学习环境动态,进而泛化到多种游戏环境之中;同时它还具有概念学习和推理能力,这就克服了深度强化学习的弊端,从而做到像人类一样重复使用概念。
深度强化学习(deep reinforcement learning)在游戏界的成功已经在 AI 界产生了轰动 (Mnih et al., 2015; Mnih et al., 2016; Silver et al., 2016; Van Hasselt et al., 2016)。人工智能在很多不同的游戏中的最新得分现在已经超越了人类的水平。但是这些成果又能在多大程度上说明人工智能已经可以像人类一样去思考游戏中的事物呢?
当人类接触一个新的游戏时,他们首先要对游戏进行概念性的理解。假设你第一次接触一个类似于打砖块(Breakout)的游戏(见下文)。通过几秒或几十秒的观察,你已经开始对游戏有了一定的理解,这是因为你对这个世界有着先验的认知(prior experience)。你可能会把移动的红色像素理解为在「墙」上进行「弹跳」的「球」,并且可以识别一个「拍子」来对球进行击打。你明白拍子是可以用来击球的。你会观察到当球碰击到顶部的「砖」时,那些「砖」就会消失。你开始的时候甚至都没有去关注得分的情况,但是后来你开始注意到打碎一个「砖」你就可以得到一定的分数,而且如果你让「球」出现在「拍子」的下方,你就会丢掉一定分数;你已经发现了这个游戏的目的。仅仅通过对游戏进行短时间的简单观察,你就很有可能会理解游戏的相关概念。
从因果(cause and effect)的角度来理解这个世界是人类智力的重要标志之一。这种能力可以让我们通过对我们已有的知识信息进行「迁移」(transferring),从而快速地理解新的情境,比如一个新的电子游戏。
那么随之而来的问题就是:深度强化学习智能体(deep reinforcement learning agents)会对概念和因果进行理解吗?
一个在打砖块的 Vicarious 标准版本上用先进的 Asynchronous Advantage Actor-Critic(A3C)方法来训练的深度强化学习智能体
深度强化学习赢了游戏却错失了要点
我们用先进的 Asynchronous Advantage Actor-Critic (A3C) (Mnih et al., 2016) 方法去训练一个深度强化学习智能体(deep RL agent),让它去玩一个典型的打砖块游戏,它可以玩的非常好。一个能够玩打砖块标准游戏的智能体应该可以轻易地根据游戏中的小变动进行调整,这些变动包括更高的拍子(paddle)或一堵额外的墙 (Rusu et al., 2016)。
上图图展示了相同的 A3C 智能体可以在玩过一些简单的变体游戏之后,在原始游戏中也拿到专家级的分数。如果 A3C 智能体已经学会了对因果进行概念性的理解,那么根据游戏中的新局势进行调整对智能体来说应该不是问题。
很明显深度学习智能体无法去应对这些小的变化,因为 A3C 和其它的深度学习智能体是通过输入像素到动作(the input pixels to an action)的映射模式来运行的,比如向左或向右移动。智能体从一系列输入像素回归到特定动作,从大量的试验和误差中进行学习。A3C 智能体会对一个特定策略进行「过拟合」(overfit),去开发训练过的游戏版本中的特定数据。但是它没有对游戏的动态变化和规则进行概念性的理解。经常被理解为「智能」的「深度强化学习表现形式」,其实就是简单的基于弱提示的「刺激与反应」(stimulus-response)间的映射关系。
图式网络
在即将到来的 2017 机器学习国际会议(ICML)中,我们将会介绍一种图式网络(Schema Network),这是一种基于模型的强化学习方法,它展现出了一些强大的泛化能力,我们相信这是真正和人类相类似的通用智能的关键所在。图式网络是一种生成图模型,它可以对未来和因果缘由(reason about cause and effect)进行模拟仿真,并且对如何能得到长远的奖励(distant rewards)进行规划。在这篇 ICML 论文中,我们描述了图式网络怎样直接从数据中进行学习,并且展示了 zero-shot 泛化能力——例如,仅在基本游戏类型中进行训练后就可以在上述打砖块游戏的不同变体中获得高分——在传统深度强化学习失效的地方进行精确地设置。
我们使用了一个类似于打砖块的游戏来展示图式网络学习概念(concept)的能力,即从一种变体迁移到下一种变体。
图式网络在其它游戏中也同样展现出了可观的结果。
我们还重点强调了我们测试过的另外两种游戏类型:太空侵略者(Space Invaders)和推箱子(Sokoban)。类似于太空侵略者的游戏包括了很多不同的来源于打砖块的机制,包括常见的物体创造(bullets)和敌军行动的固有随机性。
推箱子与打砖块和太空侵略者有很大的不同,因为这个游戏中的可获得的奖励非常少,要想得分,需要对对象交互进行更长时间范围的推理。
图式网络(Schema Networks)依赖于全部状态中的输入,而非原生图像。本质上,任何可追踪的图像特征可以是一个实体,大多数情况下通常包括物体本身, 它们的边界和它们的表面。实际上,我们假设视觉系统是一个从图像中对实体进行检测和追踪的系统。从 Atari 电子游戏中提取实体并不是一个困难的机器视觉问题,而且最近的新成果 (Garnelo et al., 2016) 已经提出了一种使用自编码器(auto encoder)进行无监督实体构造(unsupervised entity construction)的方法。
通过图式网络学习可重复使用的概念
在图式网络中,对世界上的知识信息的学习是通过小图模型片段 (small graphical model fragments) 进行的,这些片段被称作图式(schemas)。这些图式代表其在实体(名词)、属性(形容词)、实体的交互(动词)等方面的所学内容 (c.f., Diuk et al., 2008)。在新情景下,适当的知识片段被自动实例化,从而来理解情景并引导智能体取得成功。由于实例化模型可表征为概率图模型(PGM/probabilistic graphical model),表征可以自动处理不确定的证据,并解释多种原因。而且,规划问题可被看作成一个推理问题,并通过有效的 PGM 推理算法解决 (Attias, 2003)。
图式网络的核心基底是「图式」。图式描述了一个实体属性的未来值是如何依赖于其属性以及其他可能的邻近实体的当前值的。每一个图式可被看作一个预测变量(predictor),这些预测因子自动从数据中学习。例如,基于当前速率以及砖块(brick)的相对位置,一个图式可能会判定打砖块游戏中球的速率会在下一帧发生改变。另一个图式也许会预测当人类玩家「左」进行移动且左方有空间时,拍子(paddle)也会随之左移。图式还可以预测奖励、实体创建和删除。图式表征允许进行自动的前向与后向因果推理。
图式网络完全由一组图式表征。结果,模型具备高度的可阐释性。检查每一个图式并立即理解其含义是可能的。由于图式网络是一个因子图,可基于当前状态使用不同的概率推断算法预测未来状态和奖励。由于模型是生成性的,相同的算法可用于从目标状态进行后向推理。我们在 ICML 论文中展示了如何使用 MPBP(Max-Product Belief Propagation)高效地寻找打砖块游戏中的可达成奖励。相同的 MPBP 计划机制可用于下文所述的推箱子游戏。前向网络足以应对太空入侵者,我们使用蒙特卡罗树搜索对它做了展示。
图式网络中的学习是图模型中结构学习的一个实例,我们使用了一个基于线性和二进制编程的贪婪算法(详见 ICML 论文)。
突破性结果
我们在 ICML 论文中报道称图式网络能够学习打砖块游戏的标准版本并很好地泛化到上述的其他游戏变体中。它们在变体游戏上的表现如下图所示:
通过学习游戏的概念性表征,图式网络可以推理奖励机制。在下面这张动图中,图式网络通过使用其关于世界的因果模型,演示了如何对很多潜在的未来进行推理:
太空入侵者
打砖块与太空入侵者有一些共同的动力学特点,比如玩家的移动和其他游戏对象相对持续的动量。然而,太空入侵者与打砖块在很多方面又有着有趣的不同,比如,一个新的「射击」动作引起了一个只能被玩家创建的子弹实体。游戏之间的不同并没有为图示网络造成理论障碍,但是带来了相对较小的不多的工程学挑战:我们已经在学习管道中引入了实体「创建」与「删除」图示。此外,我们通过保证可靠地过滤掉噪杂和不可预测的现象而优化了学习。
我们也注意到,在随机动作很快会得到积极与消极奖励的意义上,太空入侵者比打砖块更容易获得奖励。我们把这看作一次使用更简单更快速计划方法——蒙特卡罗树搜索(MCTS,其只需要前向推理)——进行实验的机会。
正如在打砖块中所做的那样,我们使用了自己的太空入侵者版本,以允许我们便捷地对游戏动力学做出小的修缮,比如出于测试 zero-shot 迁移的目的而调整子弹速度,或改变掩体高度。下面是太空入侵者的再实现,它带有一个通过 MCTS 控制玩家的已训练的图式网络。
一个在太空入侵者上训练的图式网络,玩着相同的游戏。
超过 30 次尝试之后,图示网络在太空入侵者上的得分为 46.5 (σ=6.0),而游戏的满分为 50。大致来讲,46.5 的得分意味着在超过一半的时间里算法的表现堪称完美。作为参考,随机策略的得分为 -9.8 (σ=11.6)。
图式网络真的可以瞄准、射击外星人并躲过他们的子弹吗?还是仅仅由于运气?下面是环境的两个较小变体,较好地阐明了智能体的「意图性」。比如,观察右方的玩家如何避开子弹的火力,寻求掩体的遮护,并适时抓住机会回击外星人。它的世界模型并不完美——不是所有的子弹都射向外星人——但是对于玩好太空入侵者的变体游戏,它的预测已经超过需求。
一个在太空入侵者上训练的图式网络,玩着相同的游戏。
相同的图式网络玩着一个「双外星人」变体游戏。
我们也可以可视化计划过程以看到智能体在每一个行动之间「思考」了什么。由于我们使用了 MCTS 而不是基于 MPBP 的计划算法,探索模型和可视化下面的计划看起来并不相同。MPBP 算法首先找到了可达成的奖励,接着通过具体目标展开后向推理。相反,MCTS 则是通过明断地选择假设性动作和累加已发现的奖励探索了可能的未来状态。由于 MCTS 探索了多个可能的未来,我们根据它们的可视化位置的概率来遮蔽目标。
玩太空入侵者的图式网络(彩色)与该游戏的模拟(白色)相互交替。
从打砖块到太空入侵者,我们付出了较小的工程学努力就做到了,我们很受鼓舞,相信图式网络也可以泛化到其他领域内类似于 Atari 的游戏中。
Sokoban
推箱子(Sokoban)是一种解密游戏,涉及将方块推到目标位置,如图所示。这个游戏非常具有挑战性,因为它涉及多个步骤的提前考虑。Sokoban 求解器使用域特定信息,可以化解这个游戏的复杂变化。研究人员在 Sokoban 上的工作并不旨在与其他方式竞争,而是为了表明图式网络可以在不同的环境中学习游戏规则并获得胜利。
Sokoban 的目标是将方块推到目标位置上,在这个游戏上的成功显示了新系统在其他更具挑战性的问题上具有潜力。
我们可以通过改变环境的大小和布局来创造新的 Sokoban 难题。依赖于特定布局的深度 RL 策略并不能推广到以前未见过的新谜题。让算法可以解决全新 Sokoban 问题的唯一方法是真正对于游戏动态建模,支持前向和反向推理。
我们探究了图式网络在训练简单版本的 Sokoban 游戏后是否可以推广到其他变化中。训练环境如图所示,其中包含与完整游戏相同的实体、交互和奖励机制但训练速度更快。
图式网络的 Sokoban 训练数据
在这种环境下训练的图式网络可以推广到其他更大的谜题中,如图所示。
图式网络可以解决比训练数据更大、更复杂的 Sokoban 谜题
图式网络在可以在 Sokoban 上走多远?我们设计了一个即使对于人类来说也很有挑战性的 Sokoban 谜题,如图所示,图式网络仍然可以解决它。
图式网络破解了更具挑战性的 Sokoban 问题
讨论
端到端训练和从原始像素中学习的能力通常被认为是深度强化学习的优势。但是,只有当它们能得到可以泛化的表征时,这些优势才是有价值的。值得注意的是,即使是当实体状态被提取出来并被用作 A3C 的输入时,它也仅能给其泛化能力带来略微的改善。在深度强化学习中的端到端训练可以在一些范围狭窄的任务上带来优异的表现,同时也会牺牲泛化性。
那到底内部表征怎样的性质才能带来类似人类的泛化能力,从而可以迁移之前的经验(Lake et al., 2016)呢?我们相信我们在图式网络上研究成果为这个问题的答案照亮了方向。图式网络的模块性和组合性允许实现更大的灵活性,而且无需重新学习表征就能适应任务的变化。尽管超出了当前工作的范围,但图式网络表征的几个方面预计可与用于视觉的一种组合式生成模型交互式的工作,这可以实现有更大任务泛化性的端到端系统。
图式网络仅仅是这一方向的一小步——还有很多工作要做。如之前描述的一样,当前成果依赖于从原始图像中提取实体状态。演示图式网络与一个生成视觉系统交互式的工作是一个我们正在积极研究的领域。应对范围广泛的变化和随机动作可能需要表征、推理和学习算法上的提升。在街机学习环境(Arcade Learning Environments (Bellemare et al., 2015))中的随机性被引入了进来,以对抗依赖于暴力记忆(brute force memorization)的智能体的效果。因为图式网络并不依赖暴力记忆(正如我们通过泛化实验演示的那样),所以这个随机性方面与我们的测试无关,而且我们关注的是模拟非随机的 Atari 2600 环境,其可以使用我们当前的学习算法更轻松地学习。在存在随机动作的情况下,有效的学习图式也是我们一个积极研究的领域。
像打砖块、太空入侵者和推箱子这样的游戏可以用作开发新型人工智能算法的环境。至少,游戏可以为研究者提供快速的反馈信号——一种方法到底有没有希望用于更加实际的应用。但是,仅仅在游戏上的结果应当被谨慎对待。对于人工智能研究而言,一种方法在一种特定游戏上的得分并不非常重要,更重要的是该方法获得概念知识(conceptual knowledge)的潜力,这能帮助其泛化到这个游戏之外的更多应用中。
当前最佳的深度强化学习模型可能能够在其接受训练的环境中达到超越人类的水平,但它们无法像人类一样学到可以重复使用的概念。一些在人类看来对环境的微小改变就可能让模型陷入困惑,无能为力。相比之下,图式网络可以学习到它们训练环境的动态,使得其能泛化到环境的多种变化上。通过这种方式,图式网络可以学习原因、结果和概念。我们希望我们的成果可以激励其他人研究思考带有类似丰富结构的模型,并且将一次性泛化(zero-shot generalization)看作是任何人工智能系统所需的最重要部分之一。
扩展阅读
- Probabilistic graphical models, see Jordan 1998 and Koller & Friedman 2009.
- Deep RL with either full or partial world models, see Watter et al. 2015, Tamar et al. 2016, and Silver et al. 2016b.
- Approaches to encoding objects and relations into deep neural networks, see Battaglia et al. 2016, Chang et al. 2016, and Garnelo et al. 2016.
- Transfer learning in RL, see Rusu et al. 2016 and Taylor & Stone 2009.
- Earlier work that inspired Schema Networks, see Drescher 1991.
参考文章
1. Attias, Hagai. Planning by probabilistic inference. In AISTATS, 2003.
2. Battaglia, Peter, Pascanu, Razvan, Lai, Matthew, Rezende, Danilo Jimenez, et al. Interaction networks for learning about objects, relations and physics. In Advances in Neural Information Processing Systems, pp. 4502–4510, 2016.
3. Bellemare, Marc, Yavar Naddaf, Joel Veness, and Michael Bowling. "The arcade learning environment: An evaluation platform for general agents." In Twenty-Fourth International Joint Conference on Artificial Intelligence. 2015.
4. Chang, Michael B, Ullman, Tomer, Torralba, Antonio, and Tenenbaum, Joshua B. A compositional object-based approach to learning physical dynamics. arXiv preprint arXiv:1612.00341, 2016.
5. Diuk, Carlos, Cohen, Andre, and Littman, Michael L. An object-oriented representation for efficient reinforcement learning. In Proceedings of the 25th International Conference on Machine Learning, pp. 240–247. ACM, 2008.
6. Drescher, Gary L. Made-up minds: a constructivist approach to artificial intelligence. MIT press, 1991.
7. Garnelo, Marta, Arulkumaran, Kai, and Shanahan, Murray. Towards deep symbolic reinforcement learning. arXiv preprint arXiv:1609.05518, 2016.
8. Jordan, Michael Irwin. Learning in graphical models, volume 89. Springer Science & Business Media, 1998.
9. Koller, Daphne and Friedman, Nir. Probabilistic graphical models: principles and techniques. MIT press, 2009.
10. Lake, Brenden M., Tomer D. Ullman, Joshua B. Tenenbaum, and Samuel J. Gershman. "Building machines that learn and think like people." arXiv preprint arXiv:1604.00289 (2016).
11. Mnih, Volodymyr, Kavukcuoglu, Koray, Silver, David, Rusu, Andrei A, Veness, Joel, Bellemare, Marc G, Graves, Alex, Riedmiller, Martin, Fidjeland, Andreas K, Ostrovski, Georg, et al. Human-level control through deep reinforcement learning. Nature, 518(7540):529– 533, 2015.
12. Mnih, Volodymyr, Badia, Adria Puigdomenech, Mirza, Mehdi, Graves, Alex, Lillicrap, Timothy, Harley, Tim, Silver, David, and Kavukcuoglu, Koray. Asynchronous methods for deep reinforcement learning. In Proceedings of The 33rd International Conference on Machine Learning, pp. 1928–1937, 2016.
13. Rusu, Andrei A, Rabinowitz, Neil C, Desjardins, Guillaume, Soyer, Hubert, Kirkpatrick, James, Kavukcuoglu, Koray, Pascanu, Razvan, and Hadsell, Raia. Progresive neural networks. arXiv preprint arXiv:1606.04671, 2016.
14. Silver, David, Huang, Aja, Maddison, Chris J, Guez, Arthur, Sifre, Laurent, Van Den Driessche, George, Schrittwieser, Julian, Antonoglou, Ioannis, Panneershelvam, Veda, Lanctot, Marc, et al. Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484–489, 2016a.
15. Silver, David, van Hasselt, Hado, Hessel, Matteo, Schaul, Tom, Guez, Arthur, Harley, Tim, Dulac-Arnold, Gabriel, Reichert, David, Rabinowitz, Neil, Barreto, Andre, et al. The predictron: End-to-end learning and planning. arXiv preprint arXiv:1612.08810, 2016b.
16. Tamar, Aviv, Levine, Sergey, Abbeel, Pieter, WU, YI, and Thomas, Garrett. Value iteration networks. In Advances in Neural Information Processing Systems, pp. 2146– 2154, 2016.
17. Taylor, Matthew E and Stone, Peter. Transfer learning for reinforcement learning domains: A survey. Journal of Machine Learning Research, 10(Jul):1633–1685, 2009.
18. Van Hasselt, Hado, Guez, Arthur, and Silver, David. Deep reinforcement learning with double q-learning. In AAAI, pp. 2094–2100, 2016.
19. Watter, Manuel, Springenberg, Jost, Boedecker, Joschka, and Riedmiller, Martin. Embed to control: A locally linear latent dynamics model for control from raw images. In Advances in Neural Information Processing Systems, pp. 2746–2754, 2015.