OpenAI 今日宣布,它们的游戏人工智能 OpenAI Five 将于 4 月 13 日与人类进行最终决战,此次比赛的对手是 Dota 2 世界冠军团队 OG。
虽然在去年 8 月的 Dota2 国际邀请赛(TI8)上,OpenAI连续输给 paiN 以及由大 B 神、xiao8、430、ROTK、狗哥这些中国 Dota 届元老组成的战队,但 OpenAI 并没有因为挑战失败而放弃尝试。这一次他们直接选择了与 TI8 上的冠军团队过招。
看来在最近 6 个多月的时间里,人工智能又学会了一些新的技术?
这次比赛的规则类似于 TI8 时 OpenAI Five 与职业战队的比赛:
18 名英雄可选:斧王、水晶室女、死亡先知、撼地神牛、矮人直升机、巫妖、巫魔巫师、死灵法师、痛苦女王、剃刀、隐刺、影魔、斯拉克、矮人火枪手、斯温、潮汐猎人、冥界亚龙、巫医。镜像匹配:瘟疫法师、矮人火枪手、冥界亚龙、水晶室女、巫妖。
无圣剑、魔瓶
无召唤物,无幻象
无扫描
值得注意的是,TI8 比赛期间,去除掉了「5 个无敌信使」的限制,因为这个条件会极大的影响游戏的真实性。
本次 OpenAI Five Finals 赛事直播地址:https://www.twitch.tv/openai
比赛时间:北京时间 4 月 14 日凌晨 2:30 分(美国太平洋时间 4 月 13 日 11:30)
OpenAI Five:挑战人类的成与败
人工智能在围棋上击败人类之后,很多技术人员就开始展望 AI 在视频游戏中的表现了。2017 年的 Dota2 国际邀请赛 TI7 上,OpenAI 推出的人工智能横空出世,在人类巅峰对决的比赛现场 1v1 打败了世界顶级玩家。
在那场一对一表演赛中,OpenAI 的人工智能打败了 Danylo "Dendi" Ishutin,一名在职业生涯中赢得超过 70 万美元奖金的职业玩家。OpenAI 的 bot 在第一场比赛开始约 10 分钟打败了 Dendi。在第二场比赛中 Dendi 放弃,并拒绝进行第三场比赛。
Dendi 在比赛前接受采访,作为第一个在公开比赛中被 AI 击败的职业选手,他领教了人工智能在单挑时的应变能力。
单挑可能还不具有太多说服力,Dota2 是一个 5v5 的多人对战游戏,很快 OpenAI 就开启了更为正式的「10 人对决」之旅。2018 年 6 月,这家公司提出的「OpenAI Five」又在 5v5 多人对局中击败了由前职业玩家、游戏解说组成的天梯 6000 分级别战队,并宣布会于 TI8 上亮相和真正的职业选手过招,一时吸引了人们的关注。
Dota2 是目前全球最为流行,也最复杂的电子竞技游戏之一。其最负盛名的赛事「TI」每年都会吸引上千万玩家的关注。
面对 AI 的挑战,人类跃跃欲试,在 TI8 上很多参赛队伍都报名想参加 OpenAI Five 的比赛,OpenAI 遇到的第一个对手是来自巴西的战队 paiN,后者也是 TI8 决赛阶段第一支被淘汰的队伍。有了 AlphaGo 的「前车之鉴」,人们纷纷预测 AI 稳赢,然而人类职业玩家却让 OpenAI 尝到了失败的滋味。
paiN 选择了开雾直接冲进天辉野区,四人围攻落单的潮汐,抢到了一血。OpenAI 也展示出了人工智能「不聪明」的一面,在塔下不断插眼。虽然在随后的比赛中双方有来有往,但人类玩家逐渐掌握了计算机的套路,在 50 分钟的比赛后打爆了对方的水晶。
在 Open AI Five 对阵 paiN 的比赛中,人工智能对于自己获胜概率的预测。
这场失利让大家对于 AI 的期待有所下降,随后在第二场比赛中,由 Burning、Xiao 8、430、ROTK 和 Sansheng 组成的「中国 Dota2 元老队」也顺利击败了 OpenAI Five,让人工智能的 TI8 之旅最终以失败告终。
第二场比赛中,人类用了 45 分钟拿下胜利,人头比 48 比 43。
解决 5v5 的核心问题
虽然首次挑战职业玩家没有成功,但 OpenAI Five 的尝试为人工智能领域技术的发展有着很大意义——它解决一个重要问题:强化学习在如此复杂、需要长期策略的游戏环境下是否依然奏效?
通过自我对抗学习,OpenAI Five 每天相当于玩 180 年的游戏。训练上,它使用 256 块 GPU、12 万 8000 个 CPU 核心使用近端策略优化(Proximal Policy Optimization)方法进行训练。当每个英雄使用单独的一个 LSTM,模型就可以在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步,也能够产生大规模但也可接受的长期规划。这出乎了 OpenAI 研究人员起先的预料。
为了训练每个英雄,OpenAI 使用了两种机器学习技术:长短期记忆网络(LSTM)和近端策略优化(Proximal Policy Optimization)。
为什么使用 LSTM 其实很好理解:打 Dota2 需要长期策略,敌方英雄的每一个当前行为都会对之后的行为产生影响。LSTM 是一种循环神经网络(RNN),它比普通的 RNN 更适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM 有一个叫做 Cell 的元素,能够分辨出输入的信息是否有用,是否需要记住。
每一个 bot 的神经网络包含一个单层的、拥有 1024 单位的 LSTM,观察游戏的局势然后做出相应的行为。下图这个互动演示就是可以让你理解每个 bot 是如何做出指令的,这些画面就是 Dota 2 的 API 所观察到的。
如何让五个神经网络协作团战是另一个让不少人好奇的地方,这其实也是建立在奖励机制上。OpenAI 为 AI 模型开发了一个叫 Team Spirit 的超参数,数值从 0 到 1,数字越小每个神经网络就越「自私」,相反则越考虑团队的整体利益。到最后,OpenAI 发现将 Team Spirit 设置为 1 都能赢得比赛。
在训练初期,研究员其实会将数值调整的很小,这样 AI 会更考虑自身的奖励,学习如何分路、对线、提供金钱和经验。等到每个神经网络学会了基本的策略和玩法后,研究员才将数值慢慢提高。
由于所有参数都是随机,AI 没有引入任何人类的经验,所以 AI 没有 1-5 号位的概念,不会区分辅助和 carry,出装备也是从头开始学习。
在第一场游戏中,英雄漫无目的地在地图上探索,而在几个小时的训练后,出现了规划、发育或中期战斗等概念。几天后,智能体能一致地采用基本的人类策略:试图从对手偷财富、推塔发育、在地图旋转控制英雄以获得线路优势。通过进一步的训练,它们开始学会了 5 个英雄一起推塔这样的高级策略。
TI8 冠军 OG 战队
OpenAI 卷土重来,这一次直接选择挑战目前人类最强战队 OG,展示了自己的强大自信。这次的「最终对决」,OpenAI 直接以 Finals 为名,看来是最后一战了。更令人兴奋的是,它的对手 OG 绝非等闲之辈。
OG 战队前身为 Monkey Busniess 战队,后被一家游戏直播平台收购改名为 OG。2015 年,OG 战队在决赛中击败了 Secret 战队,夺得法兰克福特锦赛冠军,从此一战成名。
2016 年,OG 战队虽然在上海锦标赛中失利,却于当年在马尼拉再次奋起夺得第二个特锦赛冠。
冠军团队也并非一帆风顺的。在 2016 年 TI 赛惨败之后,OG 战队经历了一波换血:去掉了 Cr1t-、Miracle-和 MoonMeander,新加入 Jerax、Ana 和 s4。重生之后的 OG 随即斩获了波士顿特锦赛的冠军,之后于 2017 年获得基辅特锦赛冠军。
TI5-TI7 期间,OG 取得了 7 个官方特锦赛中的 4 个冠军,这是一支顶级的世界强队。
但 OG 真正的传奇,展现在 TI8 的舞台上。
TI8 自 2018 年 8 月 15 日温哥华开战后,OG 先以 2:1 击败 PSG.LGD,取得胜者组冠军。而后,打落败者组的 PSG.LGD 在败者组决赛中以 2:0 战胜 EG 挺进总决赛。TI8 决赛成为了 OG 与 LGD 的恩怨局。
8 月 26 日,在总决赛的精彩对决中,最终 OG 更胜一筹,3:2 赢得 LGD,在全世界面前捧起了 TI 冠军盾,而 N0tail 与 JerAx 也成功拿下四大联赛大满贯。
小结
虽然 TI8 期间,OpenAI Five 与职业选对的「表演赛」输的惨不忍睹,但让我们看到了人工智能在游戏领域的创新与突破。此次 OpenAI Five 最终决战 TI 8 冠军 OG,无论结果如何终将为 OpenAI 的 Dota2 游戏项目划上一个句号。希望时经一年,OpenAI Five 能带来更为惊艳的表现。
最后,去年的「大巴黎,咚咚咚」,今年上海 TI 9 加油啊……小编要去现场!!!