2019/03/27 12:32

参与：李泽南、李亚洲

最终决战！OpenAI将挑战Dota2 TI 8冠军OG

OpenAI 今日宣布，它们的游戏人工智能 OpenAI Five 将于 4 月 13 日与人类进行最终决战，此次比赛的对手是 Dota 2 世界冠军团队 OG。

虽然在去年 8 月的 Dota2 国际邀请赛（TI8）上，OpenAI连续输给 paiN 以及由大 B 神、xiao8、430、ROTK、狗哥这些中国 Dota 届元老组成的战队，但 OpenAI 并没有因为挑战失败而放弃尝试。这一次他们直接选择了与 TI8 上的冠军团队过招。

看来在最近 6 个多月的时间里，人工智能又学会了一些新的技术？

这次比赛的规则类似于 TI8 时 OpenAI Five 与职业战队的比赛：

18 名英雄可选：斧王、水晶室女、死亡先知、撼地神牛、矮人直升机、巫妖、巫魔巫师、死灵法师、痛苦女王、剃刀、隐刺、影魔、斯拉克、矮人火枪手、斯温、潮汐猎人、冥界亚龙、巫医。镜像匹配：瘟疫法师、矮人火枪手、冥界亚龙、水晶室女、巫妖。
无圣剑、魔瓶
无召唤物，无幻象
无扫描

值得注意的是，TI8 比赛期间，去除掉了「5 个无敌信使」的限制，因为这个条件会极大的影响游戏的真实性。

本次 OpenAI Five Finals 赛事直播地址：https://www.twitch.tv/openai
比赛时间：北京时间 4 月 14 日凌晨 2：30 分（美国太平洋时间 4 月 13 日 11：30）

OpenAI Five：挑战人类的成与败

人工智能在围棋上击败人类之后，很多技术人员就开始展望 AI 在视频游戏中的表现了。2017 年的 Dota2 国际邀请赛 TI7 上，OpenAI 推出的人工智能横空出世，在人类巅峰对决的比赛现场 1v1 打败了世界顶级玩家。

在那场一对一表演赛中，OpenAI 的人工智能打败了 Danylo "Dendi" Ishutin，一名在职业生涯中赢得超过 70 万美元奖金的职业玩家。OpenAI 的 bot 在第一场比赛开始约 10 分钟打败了 Dendi。在第二场比赛中 Dendi 放弃，并拒绝进行第三场比赛。

Dendi 在比赛前接受采访，作为第一个在公开比赛中被 AI 击败的职业选手，他领教了人工智能在单挑时的应变能力。

单挑可能还不具有太多说服力，Dota2 是一个 5v5 的多人对战游戏，很快 OpenAI 就开启了更为正式的「10 人对决」之旅。2018 年 6 月，这家公司提出的「OpenAI Five」又在 5v5 多人对局中击败了由前职业玩家、游戏解说组成的天梯 6000 分级别战队，并宣布会于 TI8 上亮相和真正的职业选手过招，一时吸引了人们的关注。

Dota2 是目前全球最为流行，也最复杂的电子竞技游戏之一。其最负盛名的赛事「TI」每年都会吸引上千万玩家的关注。

面对 AI 的挑战，人类跃跃欲试，在 TI8 上很多参赛队伍都报名想参加 OpenAI Five 的比赛，OpenAI 遇到的第一个对手是来自巴西的战队 paiN，后者也是 TI8 决赛阶段第一支被淘汰的队伍。有了 AlphaGo 的「前车之鉴」，人们纷纷预测 AI 稳赢，然而人类职业玩家却让 OpenAI 尝到了失败的滋味。

paiN 选择了开雾直接冲进天辉野区，四人围攻落单的潮汐，抢到了一血。OpenAI 也展示出了人工智能「不聪明」的一面，在塔下不断插眼。虽然在随后的比赛中双方有来有往，但人类玩家逐渐掌握了计算机的套路，在 50 分钟的比赛后打爆了对方的水晶。

在 Open AI Five 对阵 paiN 的比赛中，人工智能对于自己获胜概率的预测。

这场失利让大家对于 AI 的期待有所下降，随后在第二场比赛中，由 Burning、Xiao 8、430、ROTK 和 Sansheng 组成的「中国 Dota2 元老队」也顺利击败了 OpenAI Five，让人工智能的 TI8 之旅最终以失败告终。

第二场比赛中，人类用了 45 分钟拿下胜利，人头比 48 比 43。

解决 5v5 的核心问题

虽然首次挑战职业玩家没有成功，但 OpenAI Five 的尝试为人工智能领域技术的发展有着很大意义——它解决一个重要问题：强化学习在如此复杂、需要长期策略的游戏环境下是否依然奏效？

通过自我对抗学习，OpenAI Five 每天相当于玩 180 年的游戏。训练上，它使用 256 块 GPU、12 万 8000 个 CPU 核心使用近端策略优化（Proximal Policy Optimization）方法进行训练。当每个英雄使用单独的一个 LSTM，模型就可以在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步，也能够产生大规模但也可接受的长期规划。这出乎了 OpenAI 研究人员起先的预料。

为了训练每个英雄，OpenAI 使用了两种机器学习技术：长短期记忆网络（LSTM）和近端策略优化（Proximal Policy Optimization）。

为什么使用 LSTM 其实很好理解：打 Dota2 需要长期策略，敌方英雄的每一个当前行为都会对之后的行为产生影响。LSTM 是一种循环神经网络（RNN），它比普通的 RNN 更适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM 有一个叫做 Cell 的元素，能够分辨出输入的信息是否有用，是否需要记住。

每一个 bot 的神经网络包含一个单层的、拥有 1024 单位的 LSTM，观察游戏的局势然后做出相应的行为。下图这个互动演示就是可以让你理解每个 bot 是如何做出指令的，这些画面就是 Dota 2 的 API 所观察到的。

如何让五个神经网络协作团战是另一个让不少人好奇的地方，这其实也是建立在奖励机制上。OpenAI 为 AI 模型开发了一个叫 Team Spirit 的超参数，数值从 0 到 1，数字越小每个神经网络就越「自私」，相反则越考虑团队的整体利益。到最后，OpenAI 发现将 Team Spirit 设置为 1 都能赢得比赛。

在训练初期，研究员其实会将数值调整的很小，这样 AI 会更考虑自身的奖励，学习如何分路、对线、提供金钱和经验。等到每个神经网络学会了基本的策略和玩法后，研究员才将数值慢慢提高。

由于所有参数都是随机，AI 没有引入任何人类的经验，所以 AI 没有 1-5 号位的概念，不会区分辅助和 carry，出装备也是从头开始学习。

在第一场游戏中，英雄漫无目的地在地图上探索，而在几个小时的训练后，出现了规划、发育或中期战斗等概念。几天后，智能体能一致地采用基本的人类策略：试图从对手偷财富、推塔发育、在地图旋转控制英雄以获得线路优势。通过进一步的训练，它们开始学会了 5 个英雄一起推塔这样的高级策略。

TI8 冠军 OG 战队

OpenAI 卷土重来，这一次直接选择挑战目前人类最强战队 OG，展示了自己的强大自信。这次的「最终对决」，OpenAI 直接以 Finals 为名，看来是最后一战了。更令人兴奋的是，它的对手 OG 绝非等闲之辈。

OG 战队前身为 Monkey Busniess 战队，后被一家游戏直播平台收购改名为 OG。2015 年，OG 战队在决赛中击败了 Secret 战队，夺得法兰克福特锦赛冠军，从此一战成名。

2016 年，OG 战队虽然在上海锦标赛中失利，却于当年在马尼拉再次奋起夺得第二个特锦赛冠。

冠军团队也并非一帆风顺的。在 2016 年 TI 赛惨败之后，OG 战队经历了一波换血：去掉了 Cr1t-、Miracle-和 MoonMeander，新加入 Jerax、Ana 和 s4。重生之后的 OG 随即斩获了波士顿特锦赛的冠军，之后于 2017 年获得基辅特锦赛冠军。

TI5-TI7 期间，OG 取得了 7 个官方特锦赛中的 4 个冠军，这是一支顶级的世界强队。

但 OG 真正的传奇，展现在 TI8 的舞台上。

TI8 自 2018 年 8 月 15 日温哥华开战后，OG 先以 2：1 击败 PSG.LGD，取得胜者组冠军。而后，打落败者组的 PSG.LGD 在败者组决赛中以 2:0 战胜 EG 挺进总决赛。TI8 决赛成为了 OG 与 LGD 的恩怨局。

8 月 26 日，在总决赛的精彩对决中，最终 OG 更胜一筹，3：2 赢得 LGD，在全世界面前捧起了 TI 冠军盾，而 N0tail 与 JerAx 也成功拿下四大联赛大满贯。

小结

虽然 TI8 期间，OpenAI Five 与职业选对的「表演赛」输的惨不忍睹，但让我们看到了人工智能在游戏领域的创新与突破。此次 OpenAI Five 最终决战 TI 8 冠军 OG，无论结果如何终将为 OpenAI 的 Dota2 游戏项目划上一个句号。希望时经一年，OpenAI Five 能带来更为惊艳的表现。

最后，去年的「大巴黎，咚咚咚」，今年上海 TI 9 加油啊……小编要去现场！！！

产业OpenAI深度强化学习游戏AI

相关数据

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题（vanishing gradient problem over backpropagation-through-time)，重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳，是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能，LSTM经常被用在具有时间序列特性的数据和场景中。

来源：Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735.

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心