AlphaStar被职业玩家戏耍：在星际2上，人工智能无计可施

今年 1 月，谷歌旗下人工智能科技公司 DeepMind 的「星际争霸 2」人工智能 AlphaStar 曾与人类职业玩家展开了现场对决，并遗憾落败。7 个多月过去了，AI 在「星际争霸」上有什么进展？它现在能否像 DeepMind 所宣称的那样达到职业水平？

为了提高人工智能水平，DeepMind 与暴雪在战网天梯中开放了 AlphaStar：玩家只要进行申请并通过就可以和这个最强 AI 进行在线对决了。而且现在，AlphaStar 已经可以使用全部三个种族。

然而，与围棋人工智能 AlphaGo 走过的轨迹完全不同，在几个月的发展之后，人工智能的游戏似乎完全没有长进，反而是各路人类玩家获得了经验：他们找到了各种各样「戏耍」AI 的方法。

我们找到了 AlphaStar 近期人机大战录像中的三个：

在两场神族对战虫族的比赛中，AlphaStar（P）面对目前全球排名第 50 的 Bly（Z），从头到尾毫无还手之力。

首先是第一场：相比此前和 AlphaStar 交手的 LiquidTLO，虫族选手 Bly 更加年长一些——他是一名从魔兽争霸 3 转型的星际 2 选手，已年过 30。然而，在两场比赛中人类玩家使用简单的单矿 Rush 战术获得了几乎相同的胜利。人们纷纷表示：AI 最近的发展似乎仅限于「学会了在聊天频道里发表情」。

AlphaStar 的人族实力如何？在对战全球排名第 3 的 Neeb（神族）时，AlphaStar 的表现。

可以看到，虽然 AI 在使用人族时已经学会了使用女妖和死神对敌人进行骚扰，但在正面进攻不利，又被 Neeb 偷家的情况下还是败下阵来，整场比赛用时 13 分钟。

这可能是目前最为高端的「人机大战」了：AlphaStar vs Serral。

DeepMind 当然也找来了目前星际争霸 2 最强的玩家，芬兰虫族选手 Serral 进行了人机对决。在这场 16 分钟的比赛里，Serral 和 AI 进行了正面的硬碰硬战斗。然而看起来在这种比赛里任何一方出现短板就会造成最终的失利。有评论表示：看起来 Serral 比 AlphaStar 更像是 AI。

以下引用一位网友对比赛的深度解读：

更糟糕的是，人类玩家似乎找到了对抗 AlphaStar 的方法。但现在，DeepMind 频繁地更改自己的账号，使得它们更加难以追踪。从比赛中可以看出智能体（agent）具有几点特征：
1. 在对抗人类玩家上实现了巨大飞跃，但它依然无法真正理解游戏概念；
2. 未能对大量常见游戏策略做出适时回应；
3. 无法在比赛中根据人类对手做出调整，始终坚持设定的游戏脚本；
4. 除了人族外，其他智能体在宏观和微观行动中表现出了娴熟的技能，但在建筑物走位方面存在困难，经常将己方单位锁在基地内；
5. 在人族游戏中表现最差，虫族表现最佳（有争议）；
6. 在虫族游戏中策略最为单调。

DeepMind《星际争霸 2》AI 对抗人类玩家的发展历程

星际争霸 2 是人类游戏史上最困难、最成功的即时战略游戏，这一系列游戏的历史已经超过 20 年。星际争霸长盛不衰的部分原因在于其丰富的多层次游戏机制，对于人工智能研究来说，这是一个非常接近现实世界的虚拟环境。

星际争霸拥有平衡的游戏规则，以及诸多信息和需要控制的变量。此外，一场比赛的时间通常为几分钟到一小时不等，这意味着游戏中提早执行的操作也许会很长时间不见成效。最后，由于战争迷雾的存在，地图对于玩家只有部分显示，这意味着智能体必须结合记忆与规划才能成功。

2017 年，DeepMind 宣布开始研究打即时战略游戏《星际争霸 2》的人工智能。

2018 年 12 月 10 日，AlphaStar 击败了 DeepMind 公司里的最强玩家 Dani Yogatama；到了 12 月 12 日，AlphaStar 已经可以 5:0 击败职业玩家 TLO 了（虽然 TLO 是虫族玩家，但解说们认为他在游戏中的表现大概能有 5000 分水平）；又过了一个星期，12 月 19 日，AlphaStar 同样以 5:0 的比分击败了职业玩家 MaNa。

那么 AlphaStar 是如何学会打《星际争霸 2》的呢？

AlphaStar 的行为是由一种深度神经网络生成的，该网络从原数据界面（单位列表与它们的特性）接收输入数据，输出构成游戏内行为的指令序列。具体来说，该神经网络在单元中使用了一个 transformer 作为躯干，结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

AlphaStar 也使用到了全新的多智能体学习算法。神经网络最初通过暴雪公开的匿名人类游戏视频以监督学习进行训练。这让 AlphaStar 能够通过模仿进行学习天梯玩家的基础微操与宏观操作策略。

AlphaStar 联盟。最初是通过人类玩家的游戏回放视频进行训练，然后与其他对手对抗训练。每次迭代就匹配新的对手，冻结原来的对手，匹配对手的概率和超参数决定了每个智能体采用的的学习目标函数，保留多样性的同时增加难度。智能体的参数通过强化学习进行更新。最终的智能体采样自联盟的纳什分布（没有更换）。

随着自我博弈的进行，AlphaStar 逐渐开发出了越来越成熟的战术。DeepMind 表示，这一过程和人类玩家发现战术的过程类似：新的战术不断击败旧的战术。

DeepMind AlphaStar 现场首秀落败于人类玩家 MaNa

今年 1 月，DeepMind 的 AlphaStar 终于首次在世人面前亮相。但在对阵人类职业玩家、前 WCS 亚军 MaNa 的一场现场比赛中，人工智能却被人类「狡诈」的战术迷惑，遗憾落败。

在几场展示 AI 实力的 Replay 铺垫之后，AlphaStar 现场比赛却输了。面对刚刚从电脑前起身的 MaNa，DeepMind 的两位科学家 David Sliver 与 Oriol Vinyals 只能露出尴尬的微笑。

在这场比赛中，AI 的一个缺陷暴露出来：除了特定的分兵战术，智能体并没有形成灵活的兵力分配概念。MaNa 采取的策略是：棱镜带着两不朽在 AI 的基地不停骚扰，AlphaStar 一旦回防立刻飞走，等 AI 兵力出门又立刻继续骚扰。因此，面对 MaNa 灵活的出兵策略，AlphaStar 只能被动应战，因而也无法形成对 MaNa 的有效进攻，也导致了最终的落败。

毫无疑问，作为人工智能领先技术的研究机构，DeepMind 的 AlphaGo 和 AlphaFold 等项目不仅引发了全球对于人工智能技术的关注热潮，同时也为新技术在一些领域的落地找到了方向。然而在星际争霸 2 上，人工智能遭遇了前所未有的挑战，不断烧钱的 DeepMind 能否最终找到解决之道？

入门AlphaStarDeepMind

2 1