Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小洲、泽南编辑

好家伙!B站竟然开源了一个Dota2 AI项目:影魔SOLO智能体

为什么 Dota 里大家喜欢杀影魔?


Dota 2 的人工智能击败人类,是 AI 界的一次里程碑事件。2019 年 4 月,OpenAI 提出的 AI 智能体「OpenAI Five」击败 OG 成为了第一个在电竞游戏中击败世界冠军的 AI 系统。

作为一款 MOBA(多人在线战术竞技)游戏,Dota 2 不仅人气很高,还对人工智能,特别是强化学习系统的研究提出了很多挑战,例如游戏时间跨度长,信息不完善及高度复杂,连续的状态动作空间。所有这些问题,对于功能完善的 AI 系统在真实世界中的应用至关重要。

既然游戏是训练 AI 的好环境,那自然就会有不少科技公司前来尝试,除了 OpenAI 以外,这些年里我们还看到过很多的游戏 AI 项目,如 DeepMind 打星际争霸、腾讯王者荣耀的「绝悟」、快手的斗地主 AI。

不过两天前刚刚开源的一个 AI 项目是我们万万没想到的,小破站 Bilibili 竟然开源了一个强化学习训练的 Dota2 影魔 solo 智能体。

B 站这个项目叫 Last Order Dota2 Solo AI,虽然并非原创性的游戏 AI 研究,且当前只有 65 个 star 量,但我们还是想感叹一句:出息了啊!


项目链接:https://github.com/bilibili/LastOrder-Dota2

Last Order Dota2 Solo AI

看介绍,该开源库由 B 站的团队成员 Terry-Mao、LiuShuai 参考 OpenAI Five 的研究贡献。

该库提供一个由强化学习训练出的 Dota2 影魔 solo 智能体,可以通过自我对战的训练方式训练,从随机动作开始学习复杂的策略。而玩家也可以通过执行该项目与智能体进行影魔 solo 对战。

玩过 Dota2 的玩家都知道,影魔 solo 有一定的限制,如不能使用眼泪、魔瓶。所以在和该智能体对战时也有以下限制:

  • 物品方面不可以出凝魂之露,灵魂之戒,魔瓶,真眼。

  • 不可以吃符,或使用魔瓶吃符。不可以使用塔防。

  • 一局比赛最⻓时限为 10 分钟,超时将自动杀死重开房间。

  • 游戏不能暂停。


在项目中,开发成员还详细介绍了执行该项目的环境需求,看起来并不复杂:需要安装 python3.8、依赖库后,在管理员模式运行的 powershell 进入项目根目录。执行下面命令即可启动游戏:

python .\play_with_human_local.py

后面根据项目介绍中的流程创建比赛房间就可以与 AI solo。


在项目最后,开发团队也列出了项目的参考资料,包括 OpenAI 的 Dota2 AI 研究《Dota 2 with Large Scale Deep Reinforcement Learning》、一个开源项目 DotaService 以及 Valve 开发者社区的 Dota Bot 脚本,感兴趣的读者可以自行查看。

参考链接:
https://arxiv.org/abs/1912.06680
https://github.com/TimZaman/dotaservice
https://developer.valvesoftware.com/wiki/Dota_Bot_Scripting
工程Dota 2强化学习
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
推荐文章
暂无评论
暂无评论~