2018/08/23 17:29

清华大学团队与腾讯AI Lab专项合作夺冠FPS游戏AI竞赛VizDoom

在荷兰刚刚结束的 IEEE CIG 计算智能与游戏大会上，清华大学张钹院士领导的人工智能创新团队 TSAIL 在第一人称射击类游戏《毁灭战士》（Doom）AI 竞赛 VizDoom（Visual Doom AI Competition）上荣获竞赛 Track 1 的预赛和决赛冠军，及 Track 2 预赛冠军、决赛亚军，成为赛事历史上首个中国区冠军。

该赛事研究得到了腾讯 AI Lab 犀牛鸟专项合作计划的大力支持，研究过程中与腾讯 AI Lab 的资深研究员进行了密切合作。团队负责人为清华大学 TSAIL 实验室负责人朱军教授，成员包括清华大学苏航、黄世宇、阎栋、翁家翌及宋世虹，及腾讯 AI Lab 许佳、孙鹏等研究人员。

Track 1 官网：https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-singleplayer-track-1
Track 2 官网：https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-multiplayer-track-2

图 1 至图 4 依次为： Track 1 预赛、Track 2 预赛、Track 1 决赛及 Track 2 决赛。点击可放大图片。

打 Doom 游戏的 AI

《毁灭战士》是 ID Software 公司于 1993 年推出的 FPS（First Person Shooter，第一人称射击）类游戏，作为该类型游戏开拓者，模式延续到《使命召唤》和《光环》等多个射击游戏。AI 在游戏中能有画面而无声音信息，因此基于强化学习的 Bot 获得的信息比人类还少，使该游戏成为了 AI 研究热门试验场。

在深度学习和强化学习兴起背景下，2016 年，基于游戏的 ViZDoom AI 竞赛诞生，研究能获取原始视觉信息的强化学习技术，因其高挑战性吸引众多顶级实验室，如 2016 年冠军 Facebook FAIR（Track 1）和英特尔（Track 2）、2017 年冠军 Marvin（Track 1）和卡耐基梅隆大学（Track 2）。

比赛共分为两个挑战，Track 1 是单人闯关模式，考核标准是最短时间内闯最多的关口。这是今年的新增项目，与以往经典的死亡竞赛不同，需要 AI 能同时完成探索路径、收集装备、躲避陷阱、杀死怪物、寻找出口等诸多复杂任务，对 AI 的任务理解和环境认知能力要求极高。在 53 个国际参赛团提交的 204 个机器人中，只有 6 个团队实现了有意义的闯关。

针对该复杂任务，TSAIL 团队提出了环境信息引导的分层强化学习技术，在对环境信息有效感知基础上，融合环境反馈和强化学习的奖励信号，引导分层强化学习训练，使得 AI 闯关表现优异，预赛中以绝对优势保持第一，直至决赛锁定冠军。

第二个挑战 Track 2 是随机对战模式（Death Match），这是 VizDoom 的传统项目，采用死亡竞赛模式，要求参赛选手在同一个地图里对杀 10 分钟，AI 要在保存自己的同时，尽量多的杀伤敌人。最后用 Frags（=杀敌数量-自杀数量）定胜负。清华大学和腾讯 AI Lab 去年曾参赛并获得优异成绩。今年的比赛喜迎了 33 个参赛队的 152 个机器人。

在 Track 2 中，TSAIL 团队针对目前强化学习中普遍存在的动作空间大和奖励信号稀疏等问题，更改适配了轻量级物体检测架构 YOLO-v3，并与强化学习算法有效融合，极大提高了强化学习的训了效率。预赛竞争异常激烈，TSAIL 团队与第二名不断交换领先，最后以 0.1 个 frag 优势夺冠。决赛有 6 支团队参加，包括预赛的前三名、2017 年冠、亚军及 2016 年冠军，TSAIL 最终夺得亚军，成绩远超前两届冠军。

参与 VizDoom 竞赛的意义，首先是探索输入像素级视觉信息，直接输出 AI 控制策略的强化学习算法。在研究上，这能带动同类任务研究，如无人驾驶、机器人导航和物体追踪等；应用上，可助力同类射击游戏开发，如虚幻竞技场、雷声之锤和刺激战场等，从而拓展人工智能技术的研究和应用领域。

团队介绍

清华大学 TSAIL 人工智能创新团队

该团队由张钹院士领衔，聚焦人工智能原创性基础理论，团队核心成员包括国家「万人计划」青年拔尖人才、MIT TR 35 中国区先锋者朱军教授、以及胡晓林、李建民、苏航等教师，和 30 余名在读博士和博士后。经过多年的积累，TSAIL 团队在深度学习、贝叶斯学习、强化学习等人工智能基础理论方面取得了一系列创新成果，研发的深度贝叶斯平台「珠算」具有重要的影响力。近年来，TSAIL 团队成员在 ICML、NIPS、CVPR、IJCAI 等人工智能领域顶级会议上发表论文一百余篇，先后获得中国计算机学会自然科学一等奖、nvidia 先锋实验室等多个重要奖项，和多个国际比赛的冠亚军，是人工智能基础理论研究领域具有重要国际影响力的团队。

延伸阅读

腾讯 AI Lab 核心方向 - 游戏 AI

游戏 AI 是腾讯 AI Lab 的核心研究领域，这是人工智能与博弈论的一个交叉领域，从小来说，它研究如何用 AI 提升人类玩游戏的体验。从大来说，它研究人、智能体及环境间的复杂交互关系。游戏 AI 一直在推动人工智能的核心发展，从国际象棋和围棋中 AI 击败人类高手，现在已转移到更复杂的实时策略型游戏，如《星际争霸》；及多人在线战术竞技 MOBA 游戏，如《DOTA 2》与《王者荣耀》。

游戏 AI 研究的奥义——远不止于游戏本身。这是一个富有挑战而令人振奋的研究课题，研究当中累积的经验、方法与结论，能在更广大深远的范围被利用。首先是打通虚拟与现实世界的藩篱，从而赋能物理世界，比如无人车和机器人的发展；其次，游戏中对话智能的研究，或能成为通向强人工智能的重要路径；第三，研究游戏中人、智能体和环境的交互，能让智慧城市这样复杂而意义深远的项目受益。

游戏 AI 涉及到三个核心能力：对外界环境的感知，根据状态做出的决策，人与智能体之间的对话。比如在围棋的游戏场景，可以通过感知棋盘的全局表达状态决定在哪里落子。而现实中的无人车，同样可以通过视觉，激光雷达的感知对方向盘，刹车等动作做出决策。

理解了游戏 AI 的三个核心能力，那就可以解释研究中的三个核心挑战及腾讯目前探索的一些解决方案。

第一个挑战是游戏的状态空间过大。比如很多战略型游戏的状态空间是无穷维，远大于围棋空间。腾讯提出了一套整合了模型，算法，与计算体系结构的解决方案，叫做腾讯机器大脑，整个系统的核心是使用深度神经网络来建模超大规模的状态空间。

第二个挑战是许多复杂的多玩家游戏需要多个智能体协调操作，目前这方面理论比较缺乏。为设计出一个完善的多智能体 AI，一个核心问题是将强化学习的价值网络与描述宏观战略的行为树进行互操作，并使其融合。

第三个挑战是绝大部分游戏 AI 是用模拟器在一个理想化的虚拟世界中开发。如何打通虚拟与现实，又是一个核心挑战。我们的解决方案结合反向强化学习及动态探索机制，对游戏 AI 中的参数进行贝叶斯升级。这样得到的系统能保证在现实世界花最小的成本，就能成功部署。

这一套感知、对话与决策模块，形成了一套通用系统，未来有望在现实中被应用到更多场景中，这就是我们说的虚拟对现实的赋能。

工程清华大学腾讯AI Lab游戏

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

分层强化学习技术

分层强化学习是强化学习领域中的一个分支。传统强化学习通过与环境的交互，进行试错（trial-and-error），从而不断优化策略（policy）。但是强化学习的一个重要不足就是维数灾难 (curse of dimensionality)，当系统状态（state）的维度增加时，需要训练的参数数量会随之进行指数增长，这会消耗大量的计算和存储资源。分层强化学习将复杂问题分解成若干子问题（sub-problem），通过分而治之(divide and conquer)的方法，逐个解决子问题从而最终解决一个复杂问题。这里的子问题分解有两种方法：①所有的子问题都是共同解决被分解的任务(share tasks)；②不断把前一个子问题的结果加入到下一个子问题解决方案中(reuse tasks)。分层强化学习核心思想是通过算法结构设计对策略(policy)和价值函数(value function)施加各种限制(constraints)，或者使用本身就可以开发这种限制的算法。

来源：Barto, A. G., & Mahadevan, S. (2003). Recent advances in hierarchical reinforcement learning. *Discrete Event Dynamic Systems*, *13*(4), 341-379.Driessens, K., Fern, A., & van Otterlo, M. (2005). *Proceedings of the ICML'05 Workshop on Rich Representations for Reinforcement Learning*. Bonn, Germany: University of Bonn.

强人工智能技术

强人工智能或通用人工智能（Strong AI或者 Artificial General Intelligence）是具备与人类同等智慧、或超越人类的人工智能，能表现正常人类所具有的所有智能行为。强人工智能是人工智能研究的主要目标之一，同时也是科幻小说和未来学家所讨论的主要议题。相对的，弱人工智能（applied AI，narrow AI，weak AI）只处理特定的问题。弱人工智能不需要具有人类完整的认知能力，甚至是完全不具有人类所拥有的感官认知能力，只要设计得看起来像有智慧就可以了。由于过去的智能程式多是弱人工智能，发现这个具有领域的局限性，人们一度觉得强人工智能是不可能的。而强人工智能也指通用人工智能（artificial general intelligence，AGI），或具备执行一般智慧行为的能力。强人工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相连结。

来源：维基百科

博弈论技术

博弈论，又译为对策论，或者赛局理论，应用数学的一个分支，1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》，标志着现代系统博弈理论的的初步形成，因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia