2019/04/14 08:45

OpenAI 2:0击败Dota2 TI8冠军OG（鱼腩队？），「菜鸡」小编上手体验

在 OpenAI Dota2 项目最终的决战中，OpenAI Five 2:0 战胜 Dota2 职业战队、TI 8 冠军 OG。此外，OpenAI还将在4月18-21日期间把OpenAI Five开放给玩家，注册就能体验。炫耀一下，小编现场体验了一把。

3 月底，OpneAI 官方宣布挑战 Dota2 职业战队、TI 8 冠军 OG，这是 OpenAI Dota2 项目的最后一战。先前，机器之心曾介绍过 OG 是 Dota 界一支顶级的战队，TI5-TI7 期间，该队取得了 7 个官方特锦赛中的 4 个冠军。在 2018 年的 TI8 中，3：2 赢得 CN Dota 战队 LGD。虽然，机器之心读者吐槽如今的 OG 完全是一支鱼队，但这次比赛中选手 Ana 归来，实力并不弱。

刚刚，这场终极对决结束，OpenAI Five 2:0 战胜职业战队 OG。

2:0 OG 惨败

先介绍下比赛规则的调整。

据先前 OpenAI 博客介绍，此次比赛规则类似于 TI8 时 OpenAI Five 与职业战队的比赛但略有调整，可选择的英雄从去年的 18 位降为 17 位，无幻象，无召唤物。据 OpenAI 介绍，针对 dota2 最新的版本更新，OpenAI Five 训练了几周。

第一场比赛，双方阵容选择如下：

OpenAI Five：火枪、飞机、冰女、DP、斯温
OG：小牛、巫医、毒龙、影刺、影魔

系统给出的 OpenAI Five 的胜率为 67.6%。

比赛开始后，开局抢钱，OpenAI Five 拿下一血。而后双方在战线阶段，双方打的势均力敌，经济与人头数一度拉平。不久之后，OG 河道一波失误，导致丢失中路二塔与高地。

24 分钟，毒龙上路带线被抓，队友支援不成反而引发团灭。

32 分钟下路一波团，OG 惨败，在挣扎了几分钟后，三路被破而后 GG，击杀数为 52:29。

「人类的希望」OG 第一局败北。

第一局比赛，不谈人类的「表演」（如从头送到尾的毒龙），我们可以从中观察到 OpenAI Five 存在的一些问题，例如：

因英雄选择限制，阵容搭配与分路都不常规；
DP 中路打影刺，不插真眼；
因为隐身英雄的存在，OpenAI Five 学习插真眼存在问题；
毫无道理的买活；
用鸡习惯极差。

但相比于 2018 年 TI 8 时期，OpenAI Five 的确增强了许多，如团战打的更好，做视野的能力也有所提升。

进入第二局比赛，双方改换阵容。OpenAI Five 选择了冰女、飞机、斯温、巫医和毒龙，OG 选择了火枪、小牛、DP、小鱼和 lion。

此局比赛，OpenAI Five 预测胜率为 60.8%。

开局，人类玩家上下两路劣势，10 分钟左右击杀数大为落后（3：11），经济落后 5000 左右。

14 分钟上高

14 分钟，OpenAI 上路杀人、拿塔、破高地，OG 的两位大哥已经没时间发育了。不到 21 分钟，OG 基地被破，6:46 的击杀数被 OpenAI 完虐。

在 TI 8 败给职业玩家之后，OpenAI Five 终于证明了自己，2:0 战胜职业战队。而 OG 的表现，在观众看来真的沦为了鱼腩队，或者未发挥全部实力，仅仅参与了一场表演赛。

「菜鸡」小编上手

受 OpenAI 邀请，机器之心小编也上手了一把和 AI 大战的好戏。

事先声明，小编玩 Do 龄 8 年，但 Dota 2 几乎没有玩过，Ehome 粉丝，新版本英雄技能完全不熟悉，导致选英雄的时候果断选了死灵法师，以为可以用大招远程直接带走对方残血 AI 为机器之心争光，结果……

机器之心「菜鸡」小编挑战 OpenAI Five

往事不堪回首，先谈一波感受：

首先，这场 Demo 是常规的 5V5 作战，规则和 OpenAI vs OG 的规则一样，只不过小编没有人类队友，而是配了 4 个 AI 一队。是的，人类可以和 AI 组队。

双方阵容有四位相同英雄：巫医、潮汐、小牛、直升机，OpenAI Five 另一位英雄为死亡先知。小编的死灵法师上手树枝大补药加一个智力头盔，中路出门对线死亡先知。

结果，对线期完全被压制，而且除了用技能之外一个正补反补都没有……当然死亡先知中路本身压制就比较有优势，而且 AI 几乎没有犯什么错误。

无奈之下，小编只有叫小弟帮忙：输入 Lane Gyro Mid，在上路由 AI 控制的矮人直升机回复：收到老大，马上来。两个英雄对线后，情况马上好转。

升了 6 级，买了鞋子之后，对方 AI 开始推中路和上路。和 AI 交流还是有些问题，对方开始中推我们却无法集中防守。之后两波团战小编除了加血和尝试放大招失败后，死了两次，没有任何收获。

时间原因，Demo 在 12 分钟结束，人头比 1：8，菜鸡小编惨败，12 分钟 KDA 0/2/1。

总的来说，AI 在对线期几乎不给人类玩家任何机会，但过了对线期，AI 的套路似乎只有上路或者中路集中推塔。在 10 分钟的时候，对方的死亡先知就开始打 Roshan，打到残血之后无功而返，小编也不明白 AI 是怎么想的。

最后，你是不是也想体验一把？在比赛结束后，OpenAI 宣布将在 4 月 18-21 日把OpenAI Five开放给玩家，注册就能与朋友一起组队挑战 OpenAI Five 或者与 OpenAI Five 组队玩游戏。

OpenAI Five 视角

OpenAI 在 Dota 2 的研究上已经走过了两年多的时间，最初在2017年8月份，OpenAI构建的智能体就在Dota2 一对一表演赛中战胜了顶级职业选手。随后在一年后，该智能体于 5 v 5 团队赛中击败业余人类玩家，这是OpenAI Five强化学习模型第一次展现它的强大能力。当时OpenAI Five通过Self-Play方法，每天都相当于玩了 180 年的游戏。

随后，OpenAI Five 就开始尝试在 5v5 团队赛中挑战顶尖团队，它希望和人类遵守相同规则、获取类似地图信息的情况下取得更多的创造性。如下为 OpenAI Five 的发展历程，今天的这场比赛是它与人类的最终决战。

如上图所示，从 OpenAI Five 也一直在进步。18 年 8 月份 TI 8 时期，OpenAI Five 的参数量约为 4 千万，相当于人类玩了「一万年」的 Dota 2 游戏。而到今天，OpenAI Five 的参数量约为 1.6 亿，相当于人类玩了「4 万 5 千年」的 Dota 2 游戏。

其实在每一局中，OpenAI Five 获得的信息和人类是一样的，但前者可以实时看到位置、生命值和装备清单等，而这些信息都需要人类选手去手动查看。在今天比赛开始之前，OpenAI Five 的研究者就展示了人类与 AI 眼中的游戏，虽然信息上它们是等价的，但形式有很多不同。

OpenAI Five 团队曾表示能使用强化学习与 LSTM 网络构建 Dota 2 智能体也非常出人意料。因为如果每个英雄用单独的 LSTM，那么模型在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步，也能够产生大规模但也可接受的长期规划。

总的而言，OpenAI Five 击败顶尖人类团队 OG 主要需要解决三大核心问题：长线策略、奖励机制、团队协作。

首先对于长线策略，Dota 游戏平均每秒 30 帧，一场时常 45 分钟，大部分操作（例如操纵英雄移动）都有单独的小影响，但一些个体行为可能会影响到游戏战略。所以不论是通过 LSTM 选择短期操作，还是通过类似 AlphaGo 中的「价值网络」制定长期战略，它都需要学会局部操作与后续战术的关系。

其次由于 OpenAI Five 使用强化学习进行训练，那么设定合理的奖励（Reward）就处于核心问题了。OpenAI Five 的奖励主要由衡量人类如何在游戏中做决策的指标组成：净价值、杀敌数、死亡数、助攻数、最后人头等。同时还需要构建一个指数衰减超参数，以决定智能体究竟是关注长期的奖励还是短期的奖励。

最后对于团队协作，我们希望五个独立智能体能共同完成一些战术。OpenAI Five 没有在各个英雄的神经网络之间搭建显式的沟通渠道，团队合作由一个称之为「团队精神」的超参数控制，该超参数从 0 到 1 表示关注团队平均奖励的程度。OpenAI Five 的早期训练该值比较小，因此智能体更关注自身发展，后面逐步增加该值以令智能体更关注团队协作。

因为智能体的庞大动作空间、观察空间和不完美信息，Dota 2 远比围棋等游戏复杂，它还有更多的问题需要解决。在击败 OG 后，OpenAI Five 和强化学习还有很长的路要走。

产业OpenAI游戏AI强化学习人机大战Dota 2

相关数据

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心