Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南 杜伟报道

腾讯 AI「绝悟」KPL 击败职业玩家联队,晋升王者荣耀电竞职业水平

昨天下午,腾讯策略协作型 AI「绝悟」在吉隆坡举办的王者荣耀最高规格电竞赛事 KPL 世冠杯半决赛中,通过了职业选手赛区联队带来的水平测试,升级至电竞职业水平。

「绝悟」是腾讯 AI Lab 与王者荣耀团队共同探索的前沿研究项目,在王者荣耀世界冠军杯半决赛的特设环节中,这一人工智能在职业选手赛区联队带来的 5v5 水平测试中获胜,首次在王者荣耀游戏中击败了现役职业玩家。

AI 虽然一度被人类打团灭了,但是仍然在这场 16 分钟的对决中稳稳拿下了胜利。

2018 年 12 月,在王者荣耀 KPL 秋季决赛期间,腾讯 AI Lab 与王者荣耀共同探索的研究项目——策略协作型 AI「绝悟」首次露面,并接受前职业 KPL 选手、职业解说组成的人类战队(平均水平超过 99% 玩家)的水平测试,最终绝悟获得胜利。昨天,绝悟则是击败了由四名中国选手和一名马来西亚选手组成的职业联队

比赛视频,从 3 分 40 秒开始:

OpenAI Five 在 Dota2 上挑战职业战队失败在先。在比赛之前,研究人员们对「绝悟」有没有信心呢?腾讯 AI Lab 技术团队告诉机器之心:「根据之前的内部基准测试判断,我们认为胜算还是比较大的。但这是「绝悟」第一次接受赛区联队的测试,不到最后一秒,很难说我们是有完全把握的。整场测试里,职业选手表现出非常高的水准,精彩度极高,「绝悟」测试表现中体现的策略和协作能力与日常测试相似,我们也很满意。」

此次,绝悟对阵的五个人类对手均为现役职业玩家:eStar Pro 的兮兮、EMC 的 Sun、Nova 的 Seek、KingZone 的 Night,以及马来西亚选手 M8HEXA 的 Mike。

在比赛中,蓝方为人类战队,红方为绝悟。人类选择了曹操、娜可露露、武则天、狄仁杰和张飞的阵容;而人工智能控制达摩、雅典娜、王昭君、虞姬和牛魔五个英雄。

腾讯 AI Lab 表示,此次比赛是固定的十个英雄,不过职业选手可以自由出装。开发团队希望能在未来不断扩大英雄池的规模。

人机大战对阵双方的阵容。

另一个人们关心的话题是 AI 的手速限制。腾讯 AI Lab 表示,绝悟的设定为跟人类极限手速类似,因为游戏本身普攻和技能都有攻速限制,因此总体是一个相对公平的比赛。

人类拿下一血、团灭 AI,但无济于事

人工智能依靠完全自我博弈形成的战术,与人类玩家大有不同。在比赛中我们可以看到 AI 并不拘泥于上单、中路和下路英雄的不同「职位」,而是致力于打钱效率的最大化,每个英雄获取金币的数量也趋于平均。另一方面,即使是坦克英雄,购买的装备也倾向于攻击性。

开局时「绝悟」没选择传统人类对线走位策略,而是由双 C 位英雄虞姬和王昭君先一起清理中路第一波兵线,压制敌方中辅。之后又转上路压制曹操血线。

与此同时,「绝悟」方雅典娜和牛魔合作拿下己方首个蓝 buff,转战中路击杀小兵补血,再联手拿下己方首个红 buff。

随着比赛的进行,「绝悟」方虞姬、雅典娜和牛魔与「人类」方曹操和武则天展开混战,双方战至上路,曹操越塔强杀虞姬,拿下「人类」方一血。

比赛进行到 4 分 10 秒,「绝悟」方虞姬、王昭君、达摩和牛魔全部压制中路,而「人类」方曹操被杀掉半血,而妮可露露被达摩一个回勾拳击杀,「绝悟」扳回一城。

团队协作:「绝悟」四人追击娜可露露,AI 达摩一脚将娜可露露反踢入 AI 群中,再由四个 AI 完美配合拿下自己的首杀。

之后,「绝悟」方虞姬、王昭君、达摩和牛魔继续抱团上路推进,拿下「人类」方上路二塔;「绝悟」方雅典娜单带下路,被「人类」方狄仁杰和张飞联合击杀。

在比赛进行到第 9 分钟时,人类玩家抓住 AI 打主宰的机会,武则天开大制造了 AI 的一次团灭。然而随后人类玩家并没有将优势转化为胜势——仅仅拆掉了 AI 中路的二塔。

游戏进入中期,人工智能和人类玩家的经济并没有拉开太多。我们看到 AI 的王昭君和牛魔经常会使用大招清兵线——在 AI 的眼里,所有技能都是为奖励机制服务的,重要性没有区别。这一场面此前我们在 OpenAI Five 与人类的比赛中也能看到,所以这一回就连主播们也不再吐槽,转而思考:难道 AI 这么做其实是对的?

......

比赛进行到 15 分 10 秒,来到了本场比赛最精彩的部分。「绝悟」方虞姬、王昭君、达摩和牛魔上路抱团,攻击「人类」方上路一塔,随后双方英雄全部赶到展开混战。

这时,「人类」方武则天放大招,助攻己方狄仁杰击杀掉敌方王昭君,而「绝悟」方虞姬又射杀掉了妮可露露。「绝悟」方牛魔放大助攻己方达摩击杀掉敌方狄仁杰。同时,「绝悟」方雅典娜突进击杀掉敌方武则天。至此,「人类」方英雄只剩下曹操和张飞。

然后,「绝悟」方虞姬顺利击杀掉敌方张飞,而「人类」方曹操回城回血。但曹操一人回天乏力,只能眼睁睁地被「绝悟」方四英雄虐杀掉。

「绝悟」四英雄完美配合,塔下极限击杀。

但在比赛的最后,「人类」方英雄团灭后,「绝悟」再次展示了它人工智能固执的一面:在对方没人,己方兵线已经压到水晶下的时候,却并未选择直接推水晶,而是在计算整体收益后,选择先推掉最后一个高地塔,再推水晶直至胜利。

「人类」英雄团灭后,「绝悟」选择推掉最后一个高地塔。

实现 AI 宏观战略架构

高性能游戏 AI 的研发是算法+算力高度结合,需要极致优化的算力平台和持续改进的优化算法。据腾讯 AI Lab 介绍,绝悟团队部分成员来自围棋 AI「绝艺」的团队,综合了 AI Lab 的科研与工程人才资源,还联合了腾讯技术与工程事业部(TEG)旗下基础架构平台部人才。主要工作包括模型、特征、算力、数据的优化,机器虚拟化、搭建和优化数据处理、并行计算和机器学习训练的平台。

从业余顶尖到职业水平,人工智能究竟经历了怎样的提升?据悉,此次测试的「绝悟」版本建立了基于「观察-行动-奖励」的深度强化学习模型,没有经过人类数据的训练,从白板学习(Tabula Rasa)开始,让 AI 自己与自己对战。

「绝悟」的人工智能模型训练使用 384 块 GPU,8.5 万核 CPU,平均每天自对战局数相当于人类训练 440 年的量,训练周期持续半个月以上。AI 从 0 到 1 摸索成功经验,既学会了如何站位、打野、辅助保护和躲避伤害等游戏常识。更有趣的是,AI 也探索出了不同于人类常规做法的全新策略。团队还创建 One Model 模型提升训练效率、优化通信效率,提升 AI 的团队协作能力,使用零和奖惩机制让 AI 能最大化团队利益,使其打法果断,有舍有得。

AI 打王者荣耀游戏的困难之处,在于需要在不完全信息、高度复杂度的情况下作出复杂快速的决策。在庞大且信息不完备的地图上,10 位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择,这带来了极为复杂的局面,操作可能性预计高达 10 的 20000 次方,而整个宇宙原子总数也只是 10 的 80 次方。

若 AI 能在如此复杂的环境中,学会像人一样实时感知、分析、理解、推理、决策和行动,就可能在多变、复杂的真实环境中发挥更大作用。因此业界认为下一个 AI 里程碑,可能会在复杂策略游戏中诞生。世界顶级科技公司均在推进此类研究,如谷歌 DeepMind(星际争霸 2)、Facebook(星际争霸 2)及 Open AI(Dota 2)等。

腾讯 AI Lab 去年提交的论文《Hierarchical Macro Strategy Model for MOBA Game AI》中,我们可以了解到「绝悟」背后的人工智能技术。

研究人员发现建模战略阶段对 MOBA 游戏中 AI 的表现至关重要。然而,教智能体学习宏观战略操作颇具挑战性。首先,从数学上定义宏观战略,如围攻和分线推进就很困难。此外,在 OpenAI Five 的强化学习框架上加入宏观战略需要相应的执行才能获得奖励,但学习宏观战略操作本身就是很复杂的过程。

因此,作者认为监督学习是更好的方案,因为可以充分利用高质量游戏的回放来学习宏观战略以及相应的执行示例。需要注意的是,通过监督学习学到的宏观战略和执行可以进一步作为强化学习的初始策略。

(a) 王者荣耀游戏界面。玩家使用左下角的虚拟键控制移动,用右下角的键控制技能。玩家可以通过屏幕和左上角的小地图来观察环境。(b) MOBA 示例地图。双方队伍分别用蓝色和红色表示,每队拥有 9 个防御塔和 1 个基地。四个野区分别标为 1、2、3、4。

MOBA AI 宏观战略模型的设计灵感来自人类玩家的战略决策方式。在 MOBA 游戏中,经验丰富的人类玩家完全了解游戏的每个阶段,如开启期、对线期、游戏中期和游戏后期。在每个阶段,玩家都要关注游戏地图并根据情况决定将英雄派往何处。例如,在对线期,玩家会将更多的注意力放在自己的线路上,而不是支持队友。但在游戏中期和后期,玩家会更加关注团战地点,向敌方的基地推进。

宏观战略操作过程可以总结为「阶段识别-> 注意力预测→ 执行」。为了建模这一过程,作者提出了一个双层宏观战略架构,如阶段层和注意力层:

  • 阶段层旨在识别当前游戏阶段,这样注意力层就能更清楚地知道应该将注意力放在哪里。

  • 注意力层旨在预测地图上适合派遣英雄的最佳地点。

阶段层和注意力层为宏观执行提供高级指导。下文将详细说明建模细节。宏观模型的网络架构几乎与 OpenAI Five 中用到的结构一样,只不过前者是以监督学习的方式。经过一些小幅修改,作者将其应用到《王者荣耀》中。

分层宏观战略模型的网络架构。

(a)在阶段层中建模的主要资源(即图中圈出的防御塔、基地、龙和暴君)。(b)举例说明阶段层中的标签提取。

对于不同类型的英雄来说,最热点的区域(红圈处)也有所不同。

「绝悟」未来可期

「绝悟」名字寓意绝佳领悟力,其技术研发始于 2017 年 12 月,除了亮相 KPL 赛场之外,「绝悟」的 1v1 版本昨天也在上海举办的国际数码互动娱乐展览会 ChinaJoy 首次对公众亮相,向顶级业余玩家开放为期四天的体验测试。据悉,在首日的 504 场测试中,「绝悟」测试胜率为 99.8%,仅输 1 场(对方为王者荣耀国服第一后羿)。

腾讯表示,在强化学习游戏 AI 方面的研究有助于人类在实现通用人工智能(Artificial General Intelligence,AGI)之路上更进一步。腾讯 AI Lab 近期还将通过论文等形式进一步分享更多技术细节。

「应用上,一方面,『电子竞技』将成为策略协作型 AI『绝悟』未来短期内的主要应用场景。借助在算法和数据方面的优势,AI 可为职业选手提供数据、战略与协作类实时分析与建议,及不同强度与级别的专业陪练,」腾讯 AI Lab 介绍道。「另一方面,依托腾讯的丰富资源,我们将进一步开放研究侧资源给到游戏应用中。」

腾讯表示,还有更多细节,将在 8 月 18 日的王者无限开放计划发布会上分享。

腾讯 AI Lab 一直是强化学习研究的先行者。2016 年起,研发的围棋 AI「绝艺」(Fine Art),现担任中国国家围棋队训练专用 AI ;2017 年,启动「绝悟」研发;2018 年,「绝悟」达到业余顶尖水平,腾讯还在射击类顶级 AI 竞赛 VizDoom 夺冠,并在《星际争霸 2》首先研发出击败内置 AI 的智能体。

腾讯副总裁姚星介绍,「电子竞技」将成为策略协作型 AI「绝悟」未来短期内的主要应用场景。作为数字时代最受年轻人欢迎的运动,电竞已于 2018 年成为亚运会表演项目,中国队参赛获两金一银的成绩。与传统体育项目一样,电竞职业选手也需要手眼脑协调、策略和操作快速反应、团队协作精神及大量刻苦训练。借助在算法和数据方面的优势,AI 可为职业选手提供数据、战略与协作类实时分析与建议,及不同强度与级别的专业陪练。以前沿科技推动电竞专业化发展,AI 或许将在未来推动中国电竞在全球范围内保持领先。

「游戏是对真实世界的一种模拟,一种只有一个具体目标的模拟,这正是人工智能学习的绝佳试验场,」腾讯 AI Lab 表示。「但我们的目标从来都不只是游戏 AI,而是希望 AI 在学习如何做上千个小决定后来达成更大的终极目标。研究上,短期仍希望能将 AI 的策略协作提升到极致水平。随着「绝悟」能力不断提升,我们后续也可能会接受顶级职业战队的测试。」

而长期应用上,「绝悟」将是腾讯攻克 AI 终极研究难题——通用人工智能的关键一步。AGI 代表研发能在通用系统中执行多种复杂命令,达到或超越人类水平的 AI,从『绝艺』到『绝悟』,不断让 AI 从 0 到 1 去学习进化,并发展出一套合理的行为模式,这中间的经验、方法与结论,长期来看,有望在大范围内,如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远的影响。


理论游戏AI强化学习腾讯王者荣耀智能物联网监督学习计算机视觉
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
暂无评论
暂无评论~