两年前,DeepMind 曾宣布开始研究打即时战略游戏《星际争霸 2》的人工智能,今天,AlphaStar 终于首次亮相在世人眼前。在对阵人类职业玩家、前 WCS 亚军 MaNa 的一场比赛中,人工智能却被人类「狡诈」的战术迷惑,输给了对手。
在几场展示 AI 实力的 Replay 铺垫之后,AlphaStar 现场比赛却输了。面对刚刚从电脑前起身的 MaNa,DeepMind 的两位科学家 David Sliver 与 Oriol Vinyals 只能露出尴尬的微笑。
看来,人工智能在征服这个「最复杂游戏」的过程中还需要学会应对很多战术和突发情形。在全球首场星际争霸 2 的「人机大战」中,AI 和人类玩家都使用了神族。
人工智能表示:Pimba,所以我用神族(其实当然不是了,是因为神族的兵种最容易计算)。
挑战游戏 AI 的最高峰
2018 年,机器之心记录了 OpenAI 人工智能挑战 Dota 2 的全进程:从最初的 1 v 1 战胜 Dendi,到 5 v 5 团队赛中击败业余人类玩家,最后在 TI 8 中挑战职业玩家败北。
虽然,OpenAI 的人工智能在 TI 8 现场的表现不尽人意,但我们可以看到社区在 AI+游戏领域不断取得进步。
除了 Dota2、王者荣耀这样的 Moba 类游戏,星际争霸因其丰富的多层次游戏机制,对于人工智能研究来说也是一个再理想不过的环境。过去一年,机器之心报道了众多机构在星际争霸、星际争霸 2 上的 AI 研究成果。而我们所熟知的 DeepMind,在围棋项目结束之后也成为了 AI+星际争霸研究的主力之一。
两日前,DeepMind 宣布会以线上直播的形式公布 AI+星际争霸 2 方面的最新进展,吸引了 AI 社区、游戏社区的极大关注。
孙一峰永远是我大哥。
小编作为 Dota2 鱼塘级玩家,今日为大家带来最新的报道:DeepMind 的 AlphaStar 很强,它在一个月前接连以 5:0 的比分战胜了 Liquid 战队的两名职业选手,但现场比赛却输了。
与 DeepMind 的其他人工智能一样,打星际争霸 2 的人工智能也需要一个自己的名字。在人机大战开场数小时前,DeepMind 创始人 Demis Hassabis就通过 Twitter 向我们揭晓了谜底,继 AlphaGo、AlphaGo Zero、AlphaFold 之后,新的智能体名为 AlphaStar。
在 AI 圈、游戏界关注之下,DeepMind 的星际争霸 2AI 首秀开始。此次 Demo 的主持人为美国电子竞技解说 Artosis。国内有旭东老仙,美国也有 Artosis。Artosis 的诅咒就被喻为欧美星际争霸圈内的最强毒奶。RotterdaM 是星际争霸 2 官方解说,前魔兽 3、星际 2 职业选手。
在开场前,DeepMind 联合研究负责人 Oriol Vinyals 对比了 Atari 游戏、围棋与星际争霸 2 三者之间的复杂度。
星际争霸 2 是人类游戏史上最困难、最成功的即时战略游戏,这一系列游戏的历史已经超过 20 年。星际争霸长盛不衰的部分原因在于其丰富的多层次游戏机制,对于人工智能研究来说,这是一个非常接近现实世界的虚拟环境。
星际争霸拥有平衡的游戏规则,以及诸多信息和需要控制的变量。例如,虽然游戏的目标是击败对手,但玩家也必须顾及并平衡子目标的数量,比如收集资源(水晶和气矿)或建造房屋(提高人口限制)。此外,一场比赛的时间通常为几分钟到一小时不等,这意味着游戏中提早执行的操作也许会很长时间不见成效。最后,由于战争迷雾的存在,地图对于玩家只有部分显示,这意味着智能体必须结合记忆与规划才能成功。
星际争霸还有其他吸引研究者的方面,比如每天在线竞争的大量狂热玩家。这保证了有大量的游戏记录数据可以学习,以及大量可与智能体竞争的优秀人类对手。
甚至星际争霸的操作空间也是一个挑战,可从超过 300 种操作中做选择,相比之下 Atari 游戏只有 10 种操作选择(例如,上下左右等)。在此之上,星际争霸中的操作是层级的,能够进行调整、增强,有很多游戏单位需要点击屏幕控制。即使一个 84x84 分辨率的小屏幕,大概也存在 1 亿种可能的操作。
5:0 击败 LiquidTLO?演呢?
AlphaStar 对决的第一个人类对手,是液体战队的星际争霸 2 职业玩家 LiquidTLO。他是一名来自德国的虫族玩家,活跃于 2013-2015 年,本名 Dario Wünsch。TLO 职业生涯最好的成绩是 2013 年 6 月,在 HomeStory Cup VII 获得第三名,目前 TLO 的全球排名为 68 位。
TLO 对于能够被邀请来到 DeepMind 成为首个接受 AI 挑战的职业选手感到有些惊喜:「当时 DeepMind 发了封电子邮件来邀请我,后来我发现自己就来伦敦了。」虽然在主玩虫族之前,TLO 还打过一阵 Random,但他已经 28 岁了,神族游戏水平存疑。他在前去 DeepMind 对战之前练习了百场比赛。
比赛期间,小编也逛了 scboy 的直播。黄旭东表示,LiquidTLO 都已经 28 了,找他来打,开玩笑吗?虽然 AI 限制了 APM,但是因为 AI 应该完全没有无效操作,180 的 APM 还是很高的。而相对于人类选手,有效操作 180 已经是顶级水平了。
Alphastar 对战 LiquidTLO 演示
开场之后,第一盘人类选手使徒双开对 AI 单矿 VR。第一波使徒骚扰 AlphaStar 防守中规中矩,可以说不亏不赚。之后反穿了两个使徒打到了 6 个农民拖后了开矿节奏。而后 AlphaStar 开门带运输机前压,点掉电池之后通过运输机操作秀了人类选手一脸,AI 不朽还在路上 TLO 就打出 GG。
此时的 AlphaStar 看起来表现不强,菜鸡互啄。开局没有去对手家里探路,也没有做纪律性的查看对手有没有野建筑之类的操作,让人难以明白 AI 是怎么判断对手的战术的。
第一场结束后放出的数据,TLO 559 的 APM。网友评论:脸滚键盘吗?
在展示的第三场比赛视频中,双方打出一个双矿对开的局面。AI 前期补了两矿农民才放下基地,但是人口还是领先,给到了人类选手一定的压力。尤其是在操作上,AI 操作猛如虎。但是从比赛看来它还是有非常大的局限性,对于一些情况完全不知道如何处理,而且并没有多线操作,而是所有兵力集中推进。大概唯一的多线就是在 AI 家里的运营一直非常稳健。视频中虽然 TLO 利用一些小多线和凤凰、立场打回了一些。尤其是在中期有一波 AI 领先 60 人口但是没有打过,人口差一度被打回 20 以内。但是由于 AI 平稳的运营,还是把优势掌握在手里,直到最后人类选手打出 GG。
最后,AlphaStar 以 5:0 的绝对优势击败了 TLO。旭东老仙与众多网友都表示 TLO 未能发挥出职业玩家该有的水平,请的演员吗?(不是小编说的)。
但是看了下面 AlphaStar 对战波兰选手 MaNa 的视频之后,之前看了 TLO 比赛喊着「收了钱、放水、假赛」的二五仔们又精神了。
5:0 击败 MANA,服了
在 LiquidTLO 之后,DeepMind 的 AlphaStar 对决的人类选手是同样来自液体战队的 MaNa。MaNa 本名 Grzegorz Komincz,来自波兰,曾在 2015 年的 WCS 闯进决赛,这是一个正经的神族选手。
MaNa「忠肝义胆」,可不会跟你演戏。
对战 MaNa 时,AlphaStar 视角的神经网络处理可视化。神经网络观察图像,输入内容会激活网络的不同节点,进而开始「考虑」应对的动作,例如点击和建造,并预测各种结果。AlphaStar 也会预测对手的发展情况,尽管有时因为战争迷雾的存在无法完全做到。
在第一场比赛中,AI 的第一个水晶很难受,影响了采气,但是 AlphaStar 主动放了一个战术:在 MaNa 基地附近放下了两个 BG,但是很快就被 MaNa 看到。之后,MaNa 放下电池后放心的派出先知去 AlphaStar 家里屠农,但是 AI 在顶着 MaNa 两个追猎的火力点掉了高地下方的石头之后,坚决的打出一波。虽然 MaNa 的不朽已经走出 VR,但是第一时间被点掉。拖农民对于 AI 的操作根本没有影响,先知回防也被立刻点掉,MaNa 打出 GG。
看了对战 MaNa 的视频,旭东老仙说,AlphaStar 凤凰的这个操作有些夸张,是人类玩家无法实现的。对战 MaNa 和 TLO 中间间隔了一周,看来已经学会堵口的建筑学了。
此外,AI 对于农民采矿的细节应该是也在不断调整。我们可以从视频中看出,同样的农民数量,采矿效率总是比人类选手高。
看到这里,我们可以发现 AlphaStar 此时的操作和运营真的无懈可击,它对攻击对象的选择也是很精确,没有浪费火力,也就是说战斗中几乎是 0 失误。
这样的电脑看来只能拼一枪战术了,操作肯定是拼不过了,看看能不能在兵者诡道方面占一些便宜。
第四场视频看到的就是 AI 用无解的操作非常赖皮的以劣势兵种强吃人类玩家兵力。虽然 AI 主力只有追猎者,但是被 MaNa 分割之后打出了三线拉扯,打出了罕见的追猎包不朽,一波瞬间 1600 的 APM 之后操作完胜,MaNa 主力死光无奈 GG。
最后,MaNa 0:5 同样败北。
现场对决 MaNa:出人意料的反转
AlphaStar 背后的故事。
在一段记录视频中,DeepMind 回顾了 AlphaStar 的超快进化历程:2018 年 12 月 10 日,AlphaStar 击败了 DeepMind 公司里的最强玩家 Dani Yogatama;到了 12 月 12 日,AlphaStar 已经可以 5:0 击败职业玩家 TLO 了(虽然 TLO 是虫族玩家,但解说们认为他在游戏中的表现大概能有 5000 分水平);又过了一个星期,12 月 19 日,AlphaStar 同样以 5:0 的比分击败了职业玩家 MaNa。
为了让人感受充分训练后 AlphaStar 的强大,DeepMind 组织了一场现场对决。MaNa 在比赛前称,自己要来一场「复仇之战」。
出人意料的是,这一场比赛人类选手竟然获胜了。
这是 AlphaStar 首次星际争霸 2 的人机大战直播。通过这场比赛我们可以看到 AI 的一个缺陷:除了特定的分兵战术,并没有灵活的兵力分配概念。这让我们想起打星际 1 电脑的远古时代,开局派出一个农民去攻击电脑的基地,电脑就会派出所有农民去一直追杀你这个农民。这场 MaNa 也是利用的相似的办法,棱镜带着两不朽在 AI 的基地不停骚扰,AlphaStar 一旦回防立刻飞走,等 AI 兵力出门又立刻继续骚扰。
AlphaStar 是如何学会打星际争霸 2 的
TLO 和 MaNa 等专业星际争霸玩家在整场比赛中平均每分钟可发出数百个动作(APM)。这一数据远小于星际争霸的机器人(它们可以单独控制所有单位,达到数万 APM)。在对阵 TLO 和 MaNa 的比赛中,AlphaStar 的平均 APM 是 280,稍低于职业玩家,不过 AI 的操作都是有效操作。DeepMind 称,AlphaStar 的 APM 较低是因为 AI 使用人类玩家对战的 Replay 进行训练,从而模仿了人类的游戏方式。此外,AI 在观察图像和进行操作之间的延迟平均为 350 毫秒。
在比赛结束后不久,DeepMind 官方博客随即放出了整个 Demonstration 的视频与 AlphaStar 的技术解读。
据介绍,AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络在单元中使用了一个 transformer 作为躯干,结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。
AlphaStar 也使用到了全新的多智能体学习算法。神经网络最初通过暴雪公开的匿名人类游戏视频以监督学习进行训练。这让 AlphaStar 能够通过模仿进行学习天梯玩家的基础微操与宏观操作策略。
AlphaStar 联盟。最初是通过人类玩家的游戏回放视频进行训练,然后与其他对手对抗训练。每次迭代就匹配新的对手,冻结原来的对手,匹配对手的概率和超参数决定了每个智能体采用的的学习目标函数,保留多样性的同时增加难度。智能体的参数通过强化学习进行更新。最终的智能体采样自联盟的纳什分布(没有更换)。
比赛匹配分级评估:对不通训练时间的 AlphaStar 联盟水平的大约估计
随着自我博弈的进行,AlphaStar 逐渐开发出了越来越成熟的战术。DeepMind 表示,这一过程和人类玩家发现战术的过程类似:新的战术不断击败旧的战术。
为了训练 AlphaStar,DeepMind 使用了谷歌最先进的深度学习芯片 TPU v3 构建了一个高度可扩展的分布式训练配置,支持数千个对战训练并行运算。AlphaStar League 运行了 14 天,每个人工智能体使用 16 块 TPU。在训练时间上,每个智能体相当于训练了人类的 200 年游戏时间。最后成型的 AlphaStar 采用了各个智能体中获胜概率最高战术的组合,并可以在单个 GPU 的计算机上运行。
DeepMind 表示,对于这项工作的全面描述已经写成论文,目前正在接受同行评议期刊的审阅。又会是一篇 Nature 吗?
结语
看了前面回放的比赛视频,我们经历了从「很失望」、「AlphaStar 不行」,到「AI 的操作有点意思」,最后到「人类要完」、「打不过了」。但最终的现场决赛,人类玩家还是扳回一成。
此外,DeepMind 的 AlphaStar 也许并非最强的智能体。芬兰电竞战队 ENCE 也在两天发布通告:Artificial Overmind 挑战赛的获胜 AI 将可以挑战世界冠军 Serral,也许这会是一场值得期待的人机对决。
20 天后,人类和 AI 将会有怎样的对决?
参考链接:https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/