2016 年 11 月,DeepMind 与著名游戏公司暴雪宣布将在即时战略游戏《星际争霸 2》上合作,这家隶属谷歌的公司将在游戏平台中进行人工智能研究。近两年来,DeepMind 的研究进度时有透露,但距离「人机对战」似乎还有很长一段距离。刚刚,DeepMind 宣布即将公布一个有关星际争霸 2 的「最新进展」,而且会以线上直播的形式展现在世人面前。
时间:北京时间周五凌晨 2 点
直播链接(Twitch):https://www.twitch.tv/starcraft
直播链接(Youtube):https://www.youtube.com/channel/UCP7jMXSY2xbc3KCAE0MHQ-A/featured
在 AlphaGo征服围棋之后,《星际争霸》一直被人工智能研究者视为下一个目标,因为它相比国际象棋与围棋更接近「复杂的现实世界」,DeepMind 科学家 Oriol Vinyals 曾表示:「能玩《星际争霸》的人工智能必须能够有效利用记忆,能够进行长期战略规划,同时还得根据不断出现的新情况做出反应调整。以这种标准开发的机器学习系统,最终完全可以应用到现实世界中的任务中去」。
DeepMind 的星际 2 人工智能看来即将第一次正式亮相了,公司 CEO 丹尼斯·哈萨比斯在社交网络上表示:你不会想错过这次直播的!
在 DeepMind 和暴雪上一次发布星际争霸 2 消息的时候,Oriol Vinyals 在 2018 年暴雪嘉年华上分享了人工智能模型在星际争霸上的惊喜突破。人工智能模型当时已能执行基本的宏观战略,还能防御一些像 Tower Rush 这样的激进战术。
距离上次消息才过去几个月,DeepMind 已经准备好发布更多他们的研究消息。星际争霸系列游戏已经成为人工智能社区的一个巨大挑战,因为在解决像规划、处理不确定性和空间推理等问题时,它们是进行研究最好环境。
1 月 24 号下午 7 点(欧洲中部时间),可以登陆 StarCraft's Twitch channel 和 DeepMind's Youtube channel 来获取更多进展信息。不要错过!
星际争霸 2:最复杂的 RTS 游戏
星际争霸和星际争霸 2 是人类游戏史上最困难、最成功的两款游戏,玩家们在其中彼此竞赛已超过 20 年。最初的游戏也已为人工智能和机器学习研究者所用,他们参加每年一次的 AIIDE 机器人竞赛。星际争霸长盛不衰的部分原因在于其丰富的多层次游戏机制,对于人工智能研究来说,这简直是一个再理想不过的环境。
例如,虽然游戏的目标是击败对手,但玩家也必须顾及并平衡子目标的数量,比如收集资源(水晶和气矿)或建造房屋(提高人口限制)。此外,一场比赛的时间通常为几分钟到一小时不等,这意味着游戏中提早执行的操作也许会很长时间不见成效。最后,由于战争迷雾的存在,地图对于玩家只有部分显示,这意味着智能体必须结合记忆与规划才能成功。
星际争霸还有其他吸引研究者的方面,比如每天在线竞争的大量狂热玩家。这保证了有大量的游戏记录数据可以学习,以及大量可与智能体竞争的优秀人类对手。
甚至星际争霸的操作空间也是一个挑战,可从超过 300 种操作中做选择,相比之下 Atari 游戏只有 10 种操作选择(例如,上下左右等)。在此之上,星际争霸中的操作是层级的,能够进行调整、增强,有很多游戏单位需要点击屏幕控制。即使一个 84x84 的小屏幕,大概也存在 1 亿种可能的操作。
DeepMind 和暴雪也欢迎更多的科研人员加入挑战这一「最困难游戏」的行列。2017 年,两家公司共同发布了基于星际争霸 2 的人工智能研究环境 SC2LE,它允许研究者在 Linux 系统中接入游戏 API,开展自己的人工智能研究。
人工智能的 APM 被限制了吗?
和 OpenAI 打 Dota 2 时一样,人工智能在玩电脑游戏时因为「反应」更快,所以 DeepMind 在和人类比赛时也需要进行一些限制。
目前最为接近的例子是 Dota 2 人工智能 OpenAI Five,这个人工智能被设定为平均每分钟进行 150-170 次操作(APM=150-170,因为每四帧观察一次,所以理论峰值为 450)。熟练的玩家有可能掌握完美捕捉画面的时机,但这对机器来说轻而易举。OpenAI Five 的平均反应时间为 80 毫秒,这个速度比人类更快。
在 2017 年 DeepMind 提交的论文《StarCraft II: A New Challenge for Reinforcement Learning》中,研究人员曾表示:「人类玩家通常每分钟可以进行 30-300 次操作(即 APM30-300),随着玩家水平的提高,这个数字也会有所提升。职业玩家在极限操作时 APM 有可能超过 500。在 DeepMind 的所有强化学习实验中,人工智能每 8 个游戏帧行动一次,这相当于 APM180。这是一个和中等玩家水平相当的选择。」
APM180 是「中等水平」……星际争霸真是一个神仙打架的游戏。
人工智能能够打败什么水平的人类玩家?
自 DeepMind 宣布进军星际争霸 2 以来,这家公司一直较为低调,人们一度认为这一非对称信息游戏无法被人工智能在短时间内掌握。在两年多的时间里,DeepMind 也仅仅提交了两篇论文。最近的一篇论文,2018 年 6 月的《Relational Deep Reinforcement Learning》曾提到研究人员正在使用深度强化学习方法解决问题。
论文中写道:DeepMind 的深度强化学习方法可以通过结构化感知和关系推理提高常规方法的效率、泛化能力和可解释性。在 6 个小游戏中的 4 个实现了超越人类大师级玩家水平,DeepMind 是故意没有展现出自己的全部实力吗?
在 2018 年 11 月举行的暴雪嘉年华(Blizzcon)活动中,暴雪曾介绍道:「DeepMind 一直在努力训练人工智能模型,以更好理解星际争霸 2 规则。一旦模型掌握游戏的基本规则,它就可以开始进行一些有趣的行为,比如带农民 Rush 开局。在与「疯狂」难度标准的星际争霸 2 AI 模型对阵的时候,获胜概率可以达到 50%。」
「在人工智能学习人类玩家的游戏录像之后,它就能开始使用常规战术了,同时也可以防御对手诸如 Tower Rush 这样的激进战术。」
除 DeepMind 以外,其他研究机构也在进行自己的努力。去年 9 月份,腾讯 AI Lab 等机构利用深度强化学习开发出了能在《星际争霸 II》全场游戏中打败「疯狂」内置 AI 的智能体(深海暗礁地图,虫族 1 对 1),「疯狂」AI 在视野和采集资源速度上具有不平衡的优势,能力相当于暴雪战网(Battle.net)天梯排名系统中前 30% - 50% 的人类玩家。
目前星际争霸 2 世界排名前 10 的职业玩家。AlphaGo 的第一次亮相是对阵樊麾二段,OpenAI 的第一次则是在 Dota 2 中单挑战胜了职业玩家 Dendi,如果 DeepMind 的人工智能要对抗人类,会选谁做对手?
目前,OpenAI 的人工智能已能在 Dota 2 上和人类顶尖职业玩家勉强过招了,腾讯 AI Lab 的王者荣耀 AI「觉悟」也在 KPL 决赛上击败了顶尖战队,DeepMind 又会给我们带来哪些惊喜?几十个小时之后答案就会揭晓。
在此,先奶一口DeepMind。
参考内容:
https://news.blizzard.com/en-gb/starcraft2/22640608/recap-starcraft-ii-what-s-next-2019-panel
https://arxiv.org/abs/1708.04782
https://arxiv.org/pdf/1806.01830.pdf
https://news.blizzard.com/en-gb/starcraft2/22871520/deepmind-starcraft-ii-demonstration