2019/06/01 11:10

Shooting 杜伟参与

DeepMind游戏AI登上Science：雷神之锤多智能体合作，超越人类玩家

去年年中，DeepMind 介绍了其在游戏智能体方面的新进展，聚焦于雷神之锤 III 竞技场的夺旗模式。当时，DeepMind 设计的为 FTW 智能，达到了人类水平，能够与其它智能体或人类相互合作。今年，DeepMind 继续发力，提出基于 self-play 的新智能体，该智能体甚至能够超越人类水平。

没有什么游戏的操作原理比夺旗更简单的了（除了抓人或踢罐子游戏）。两队各自在己方的基地中设有标记物，然后争夺对方的标记物并将其安全送回基地。这太简单了！

但是，对于人类很容易就能理解的东西，机器却不能快速掌握。在夺旗游戏中，电脑控制角色通常基于启发式和规则进行编程，在游戏中自由度不高。

不过，AI 和机器学习有望颠覆这种固定的角色设定模式。DeepMind 研究人员在发表于《Nature》的论文（Human-level performance in 3D multiplayer games with population-based reinforcement learning）中介绍了一种系统，这种系统不仅能够在《雷神之锤Ⅲ竞技场》中学习如何夺旗，而且制定了全新的团队游戏策略。

DeepMind 研究科学家 Max Jaderberg 表示：「没有人告诉 AI 如何玩这款游戏——只有在胜利或失败后才知道 AI 是否了解怎么玩游戏。利用 AI 玩游戏的魅力在于你永远不知道智能体会表现出哪些行为」。即，智能体主要依靠自学来打游戏。

他进一步解释道，游戏中起作用的关键技术是强化学习。在 DeepMind 智能体的案例中，它利用奖励机制驱动软件策略实现目标，不管智能体团队是否在游戏中获胜。

论文地址：https://science.sciencemag.org/content/364/6443/859

他说道：「从研究视角来看，真正令人兴奋的是算法的新颖之处。我们训练 AI 的特定方式就很好地展示了如何扩展和实施一些经典的演化观念。」

DeepMind 的 For The Win（FTW）智能体借助卷积神经网络直接根据屏幕上像素学习，该卷积神经网络是一组根据视觉皮层模型分层排列的数学函数（神经元）的集合。

输入的数据传递到两个循环的长短期记忆（LSTM）网络或者能够学习长期依赖性的网络。两个网络分别在快和慢时间尺度上运行，并通过一个变分目标进行耦合，这个变分目标是两个递归网络共同用来预测游戏行为并通过模拟游戏控制器输出动作记忆。

FTW 智能体与 30 个玩家进行训练，这为它们提供了足够多的游戏队友和敌人，同时游戏场地也随机选择，防止智能体形成记忆地图。每个智能体学习各自的奖励信号，使它们能够生成相应的内部目标（如夺旗）。此外，研究人员还利用双层流程来优化智能体的内部奖励机制以及施加于这些奖励的强化学习，从而获得取胜之道。

FTW 智能体架构示意图。该智能体在快速和慢速时间尺度上的 RNN 网络，包括共享的记忆模块，并学习从游戏点数到内部奖励的转换。

总之，每个智能体各自参与了 45 万场夺旗游戏，这相当于四年左右的游戏经验。

DeepMind AI 系统中的激活图示。图源：DeepMind。

DeepMind 研究科学家 Wojciech Marian Czarnecki 表示：「这是一个非常强大的学习范例，你实际上是在提升性能——从这项研究的成功来看，多智能体的方式实际上让我们的生活变得更轻松了。」Wojciech 曾参与 AlphaStar 的研究。

完全训练好的 FTW 智能体运行在商用 PC 硬件上，它采用了能够泛化至地图、队伍名册和团队规模上的策略。它们学会了人类玩家的行为，比如跟随队友、在敌方的基地扎营以及保护自己的基地免受攻击。随着训练的进行，它们舍弃了那些不太有利的行为（比如紧跟队友）。

所以，智能体最终会怎么样？在一场有 40 个人类玩家参与的比赛中，人类玩家和智能体在游戏中随机配对（既有作为队友的，也有作为敌人的），FTW 智能体比基线方法更熟练。实际上，它们的胜率远远超过了人类玩家。与「厉害」人类玩家的 1300 和普通玩家的 1050 相比，智能体的 Elo（获胜概率）为 1600。

训练期间智能体（新的 self-play 智能体和 FTW 智能体）的表现。

出人意料的是，智能体的反应时间非常快，这让它们在最初的实验中略占优势。但即使它们的准确率和反应时间因为内置的 1/4 秒（257 毫秒）延迟而有所下降，它们的表现仍然超越了人类玩家。厉害人类玩家和中等水平玩家分别只在 21% 和 12% 的时间里赢过它。

另外，当研究人员在发表论文后将智能体放在《雷神之锤 III 竞技场》同类型游戏中时，智能体开始在测试比赛中挑战人类研究员的技能。当研究人员检查了智能体神经网络的激活模式（即负责定义给定输入数据的输出神经元功能）时，他们发现了代表房间的簇、旗帜状态、队友和敌人的可见性、智能体在或不在敌方基地/己方基地以及游戏中其它「有意义的方面」。

训练好的智能体甚至包含为特殊情况直接编码的神经元，例如当智能体的旗帜被夺走或者其队友夺旗时。「我觉得需要注意的一点是，这些想法、这些多智能体领域非常强大，论文证明了这一点。」Jaderberg 表示：「我觉得这就是我们过去几年里越来越了解的：如何构建强化学习的问题。强化学习在一些新的应用场景中真的很出色。」

DeepMind 科学家和伦敦大学学院计算机科学教授 Thore Graepel 表示，该研究突出了多智能体训练在推动人工智能发展方面的潜力。例如，它可能会为人机交互和（相互补充或协同工作）系统方面的研究提供信息。

「我们的结果显示，多智能体强化学习可以成功地拿下复杂的游戏，甚至让人类玩家觉得智能体比队友更优秀。结果还展示了对智能体训练行为、合作方式、如何表征环境的深入分析。」Thore 表示：「让这些结果看起来非比寻常的一方面是，这些智能体像人类玩家一样，以第一人称视角来感知环境。为了学习如何与队友进行战术配合，这些智能体必须依赖来自游戏结果的反馈——但是没有任何老师教它们怎么做。」

参考内容：https://deepmind.com/blog/capture-the-flag-science/

理论DeepMind游戏AI多智能体

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

人机交互技术

人机交互，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室。

来源：维基百科

AlphaStar技术

AlphaStar是2019年1月DeepMind推出的打星际争霸2的AI系统。在1月的首次亮相中，DeepMind播放的比赛视频显示AlphaStar击败了两名人类职业选手TOL与MaNa，引起了业内极大的关注。DeepMind 官方博客介绍，AlphaStar 的行为是由一种深度神经网络生成的，该网络从原数据界面（单位列表与它们的特性）接收输入数据，输出构成游戏内行为的指令序列。具体来说，该神经网络使用了一个 transformer 作为躯干，结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

来源：机器之心官网 DeepMind博客