2019/12/16 15:45

AI玩转「吃鸡」游戏，会避障导航、帮队友望风，这是强化学习训练的猎户座α

吃鸡类游戏很多人都玩过，但你在里面遇见过 AI 吗？最近，西山居正在研发一款名为《荣耀之海》的吃鸡类游戏，针对这款游戏，超参数科技研发了一款 3D 生存类 AI——猎户座α。它通过从零开始的强化学习训练，具备了复杂 3D 环境感知、物资搜索/使用、作战、团队配合等能力。该团队的创始人是原腾讯 AI Lab 总经理刘永升，团队其他部分成员之前也参与过腾讯「绝艺」、「绝悟」游戏 AI 的研发。

《荣耀之海》是一款什么游戏？

《荣耀之海》是西山居自主研发的新一代多人在线战术竞技游戏。游戏主打时下最火热的「吃鸡」玩法，百名玩家通过海上与陆上的大逃杀决出胜者。

在游戏中，25 支四人小队通过跳伞降落到某个区域，玩家需要在海洋与岛屿间搜集武器、防具、道具等各种资源。随着游戏的进行，地图上的安全区域将逐渐缩小，战斗爆发得也更加频繁，玩家需要配合队友，通过灵活多变的海陆策略，击杀其他队伍的玩家、生存到最后。

对于 AI 来说，《荣耀之海》在环境复杂度、AI 拟人度等方面对智能体的设计提出了很大挑战。

在环境复杂度方面，目前 AI 已攻克的游戏，大部分是运行在 2D 空间内。即使是 3D 空间的 DeepMind 雷神之锤 3 AI，也是基于上世代的游戏内核，地图简单、智能体数量少。相比之下，《荣耀之海》的 3D 环境较为复杂，地图较为庞大，玩家也比较多。

在 AI 拟人度方面，从开发商和玩家的角度，AI 并不只是越强越好，还要求越像人越好。作为一款吃鸡类游戏的 AI，猎户座α必须足够像人才能激发玩家的兴趣。

猎户座α表现如何？

现阶段，超参数团队的研究聚焦于一个迷你对局（mini-game）——在 230 米*230 米岛屿上、时限 6 分钟内、组队 2V2，最终存活的一方获胜。除这些限制外，其他游戏元素与完整游戏完全相同。

研究人员发现，在这个迷你对局中，猎户座α从零开始逐渐学会了在 3D 环境中生存所需的全方位能力。

1）AI 学会了通过搜集物资和跑毒来照顾好自己：

AI 出生后会快速搜集物资，观察到毒圈外有高级物资时，选择快速出去拾取后再尽快返回安全区。

AI 具有避障导航能力，可以通过翻窗快速进出房屋搜集物资。

2）AI 也学会了通过寻找掩体、灵活走位、武器使用等方式，以及记忆等认知能力，在竞争对抗中提升自己的生存能力：

AI 在对战中会合理利用掩体，并保持灵活的走位躲避攻击。

进入肉搏后，AI 会切换为近战武器，拉开距离后再切换回远程武器。

3）AI 还学会了发挥团队配合的力量，与队友互相掩护，在不同的战斗环境中采取针对性的战略战术，最大化自身优势：

某个 AI 被击倒后，AI 队友立刻实施救援，救活后会帮忙望风等队友打药。

在团队作战中，AI 分散站位并拉开枪线，集中火力优先消灭单个敌人。

消灭敌人取得人数优势后，AI 强势冲锋，依次经过楼梯进入房间，击杀剩余敌人。

在 AI 的训练过程中，研究者还观测到了许多与人类生存进化过程相似的地方。

人类在进化过程中，先学会采集食物补充能量、应对恶劣天气，然后学会各种工具的使用，掌握记忆等高级认知能力，进而学会与族群内同伴分工合作、与其他族群竞争对抗。AI 通过多智能体的自我训练的方式，也表现出了类似的进化现象。随着训练局数的增加，AI 逐渐涌现出了物资搜集、物资使用、空间感知、认知能力和复杂策略等智能行为。

AI 的进化过程

AI 玩转「吃鸡」类游戏难在哪儿？

《荣耀之海》作为一款 3D 游戏，复杂度相比一般 2D 游戏已经上了一个台阶，而吃鸡类游戏的超大地图、百人同局等要素又进一步增加了技术难度。

总体来说，猎户座α在《荣耀之海》中面临的挑战包括以下几个方面：

实时性与长期性

玩家不仅要做出实时的操作决策，还要做出长期的规划决策，平衡兼顾两者。具体到《荣耀之海》来说，为了最终获胜，整局游戏通常需要进行 30 分钟以上，对应的决策步数在 7000 步以上。

非完美信息

围棋等棋类游戏虽然也很难，但玩家能看到完整的棋局，也就能获取决策所需的完美信息。但在这种多人竞技非完美信息游戏中，玩家只能看到一定视角范围内的信息，无法看到被障碍物遮挡住的部分。因此，玩家需要有效探索不可见的信息，并具备记忆能力。

复杂的状态空间

《荣耀之海》中的 3D 环境比 2D 环境包括更多的信息，例如带深度的复杂空间结构、庞大的地图（10 公里*10 公里）、众多的玩家（100 人）、丰富的元素（大量建筑、障碍、物资等），对环境感知和探索提出了巨大挑战。

复杂的动作空间

要玩转这种「吃鸡」类游戏，猎户座α需要同时操作移动方向、视角方向、攻击、姿态（站、蹲、趴、跳）、交互（拾取、打药、换弹）等一系列操作，产生复杂的组合动作空间。据估算，离散化后的可行动作数量可以达到 10^7。

战略与战术

玩家需要对瞬息万变的环境和局势做出快速准确的判断，采取丰富的战略和战术，例如火力掩护、拉枪线、抢点、卡毒圈、封烟救援等等。

多人博弈

玩家不仅需要与队友进行密切的合作和通信，还需要与其他队伍在资源搜集、武装交火时进行对抗。与两人博弈相比，多人博弈的情况会更加复杂多变。

猎户座α是怎么做的？

不使用人类玩家数据，完全自我学习

「猎户座α」采用了深度强化学习方法，从零开始，通过与环境的交互和试错，学会观察世界、执行动作、合作与竞争策略。AI 没有使用任何人类玩家的对战数据，完全基于自我对战（self-play）的方式进行学习。

使用非完美信息

AI 观测的状态信息包括玩家/物资的实体信息、深度图、雷达图、小地图，以及宏观标量信息。与人类一样，AI 观测到的状态是非完美的——即只能看到一定视角范围内的信息，看不到视野外或是被障碍物遮挡住的信息。

与直接用 RGB 图像作为特征相比，研究人员采用的方式省去了图像目标检测和识别的过程，专注在 AI 的决策过程。此外，雷达图和小地图相当于自动驾驶中的高精度地图，深度图相当于深度摄像机捕捉到的信息。

限制 AI 手速

AI 的动作输出分为移动方向、水平/俯仰朝向、身体姿态、物资拾取/使用、武器切换、攻击等任务，多个任务可以同时执行，形成巨大的复合动作空间。

人类玩家在操作时，会存在反应时间的限制，APM（每分钟操作次数）也会有上限。为了与人类一致，研究人员对 AI 也进行了相应限制。

考虑到网络传输延时、特征提取和模型预测的耗时，AI 从「观测到 1 帧状态」到「产生 1 次动作」需要 120ms 的延时。在此基础上，他们额外增加了 100ms 延时。同时，AI 每秒最多执行 4 次动作、每次最多包含 3 个动作。

多个深度模型共同协作

每个智能体是一个深度神经网络模型，输入状态信息，输出预测的动作指令。研究者通过 Transformer 模型处理玩家、物资等实体信息，通过 ResNet 处理深度图、雷达图、小地图等图像信息，通过 MLP 模型处理宏观标量信息，然后通过 LSTM 模型实现记忆能力。

为实现多智能体合作，猎户座α采用了分布式的策略网络和中心式的价值网络，并引入了策略网络之间的通信机制。

AI 模型结构示意图

自研通用分布式强化学习引擎 Delta

「猎户座α」的训练在超参数自研的通用分布式强化学习引擎 Delta 上进行。该引擎通过大量弹性 CPU 资源产生训练数据，通过 GPU 资源更新神经网络模型参数，并且可以通过监控组件监控 AI 的训练过程。在该项目中，「猎户座α」训练一天相当于人类玩家打了 10 万年。该引擎可以部署在任何公有云上，目前已经支持了多款游戏的 AI 训练。

分布式强化学习引擎 Delta 架构示意图

需要指出的是，虽然猎户座α已经取得了一些进展，但目前的方案还存在诸多限制和待解决的问题。例如，AI 只能在单个岛屿上进行陆战对抗；AI 仅在 2 支队伍之间进行博弈；AI 掌握的物资和武器还比较有限。

研究人员表示，他们将逐步克服以上难题，最终让 AI 在完整地图上进行 100 人的吃鸡对战。

超参数科技是一家怎样的公司？

超参数科技是一家专注于游戏 AI 探索的初创公司，主攻机器学习、强化学习、大系统工程等领域，为游戏公司提供 AI 解决方案。已获晨兴资本、高榕资本 A 轮融资。

该公司创始人刘永升是原腾讯 AI Lab 总经理、T4 技术专家。同时，他也是腾讯围棋 AI「绝艺」、王者荣耀 AI「绝悟」团队负责人。「绝艺」曾在今年 8 月斩获世界智能围棋公开赛冠军，而「绝悟」也在今年 8 月份的吉隆坡王者荣耀最高规格电竞赛事 KPL 世冠杯半决赛中击败职业玩家联队，晋升王者荣耀电竞职业水平。

超参数科技创始人刘永升。

除了创始人之外，超参数科技的其他团队成员也有多位来自腾讯 AI Lab 和 IEG 游戏的人工智能科学家、技术骨干以及海内外顶尖院校的精英伙伴。

该公司坚信 AGI 的产生来自于对生物智能进化过程的仿真模拟，而非截面式的复制。为了更逼真地实现这种模拟，他们选择电子游戏作为实验环境，并在此过程中反哺游戏本身。

他们致力于将 AI 能力和游戏场景进行深度结合，为游戏公司提供人工智能解决方案，帮助游戏厂商提升开发效率、开启全新玩法，在游戏设计、开发、运营等多个环节创造价值。

产业游戏AI创业公司强化学习