2019/09/19 09:40

智力与应变力Max！经捉迷藏游戏训练的AI更“人性化”

捉迷藏游戏历史已久，不分国界，孩子们都爱玩。今日OpenAI发表一篇论文表示，他们的AI也爱“玩”捉迷藏。论文描述了在虚拟的捉迷藏游戏环境中，一群由AI控制的智能体是如何学会相互隐藏、寻找，并在数千万场比赛中赢过单人作战的智能体的场景。经实验结果表明，AI经捉迷藏游戏训练后，会自动发展出类似人类的生活化行为，从而进一步提高它们的智力与应变力。使得人工智能变成“人性智能”。

其实捉迷藏游戏中的决策部分与人工智能系统的决策很像，它一定程度上可以揭示AI如何权衡多种信息，并进行决策。从生物进化角度来看，人类能快速适应外部环境与挑战，在关键时刻做出最合适的决策。这种人类独有的特质，正是人工智能所欠缺的；人工智能若不想变成“手工智能”，学习捉迷藏似乎是不二选择。

尽管机器学习（Machine Learning）在诸如Dota 2这类复杂游戏中已取得显着进步，但AI在这些领域掌握的技能并不一定可以实际应用于真实生活场景，毕竟生活不是打打杀杀。所以越来越多AI研究以建立机器智能，训练AI的行为、学习、进化更接近于“人性化”为目标。

为什么选择捉迷藏？

论文的第一作者、OpenAI研究员Bowen Baker表示，选择捉迷藏是出于其简单易懂的游戏规则以及游戏本身的趣味性。

图片来源：OpenAI Blog

同时他还解释了AI捉迷藏的规则：

游戏中的AI以人形状态显示（如上图红、蓝部分所示），它们可以执行三种类型的操作：找“人”、抓取和移动物体；同时它们还可以锁定要寻找的目标，一旦锁定找到，这些目标只能由AI或其队友解锁。
游戏玩家包括：1-3名“躲避者”和1-3名“搜寻者”。它们被置于模拟房间中，房间四周为静态墙壁环绕，其中还包括各类不同大小的活动箱子和活动坡道作为游戏“障碍”设置。
研究人员使用强化学习（Reinforcement Learning）来训练游戏中的AI，游戏的奖励机制也遵循了捉迷藏的规则，较为易懂简单。

AI如何捉迷藏？

游戏中的AI由两个网络组成，策略网络用于生成动作，另一个评估网络则用于预测相应的回应动作。研究人员采用近端策略优化方法（Proximal Policy Optimization, PPO）来优化AI的应对能力。在捉迷藏游戏中，AI玩家接受了数百万次的训练。它们置身复杂的游戏环境中，从游戏开始到最后的阶段，AI需要在16个GPU和4000个CPU上接受为期3-4天的训练。

整个训练过程，AI会经历几个阶段的策略演变。一开始，躲避方（图中蓝色部分）只学会如何躲避、不被找到。随着游戏的进行，它们学会了团队合作，开始利用周围的障碍物，比如移动箱子挡门，这样搜寻者便无法轻易进入虚拟房间。

▲ Door Blocking，箱子挡门阻止“搜寻者”进入（图片来源：OpenAI Blog）搜寻方（图中红色部分）也并不会就此善罢甘休，因为几只箱子而打“退堂鼓”！于是它们便制定相应的应对策略，例如借助虚拟房间里的活动坡道，翻墙而过。

▲ Ramp Use，“翻墙而入”（图片来源：OpenAI Blog）

躲避方为了防止自己被找到，紧接着又学会一招应对策略——把活动坡道搬进躲藏的房间，这样搜寻方就不能用它来翻越墙壁了。

▲ Ramp Defense，“道高一尺，魔高一丈”（图片来源：OpenAI Blog）你来我往中，躲避方学会了使用加长型的箱子挡门，来建造更坚固的“堡垒”。研究人员当时以为捉迷藏游戏胜负已定时，搜寻方竟开始“绝地反击”！它们利用箱子移动时的动力，站在箱子上，快要接近“堡垒”时，一跃而入。

▲ Box Surfing, “一跃而入，冲破‘堡垒’”（图片来源：OpenAI Blog）游戏最后阶段，躲避方见势不对，便又学会了在建造“堡垒”之前锁上所有的散落在房间内箱子，以抵御搜寻者接近。

▲ Surf Defense, 躲为上策……!（图片来源：OpenAI Blog）从完整的捉迷游戏过程看来，研发团队直言，成绩喜人。AI的团队协作性也因此得以实现，但是该系统目前还是存在一些bug。一方面是“人”为的bug。研发人员表示，一些AI智能体有时会有一些“聪明过头”的行为，比如，躲避者试图逃离游戏区域（也就是上文所说的虚拟房间），想要一劳永逸防止被找到，这时候研究人员就会有相应的惩罚措施并使其重回“赛场”。

还有一类可归为虚拟环境中的物理bug。例如，在游戏过程中，躲避者把活动坡道推到墙角处，坡道会因为某种原因穿过墙壁、然后消失，这样搜寻者就找不过来了。这样的bug也就说明了算法安全性在AI系统应用中的重要性，若是研发人员考虑周全，那么此类“作弊”行为即可被杜绝。不过新技术的诞生存在问题也可谅解，重要的是发现问题后及时改正。研究团队下一步，便计划解决物理环境的问题。

关于未来

Bowen Baker 表示，他们十分开心看到智能群体在捉迷藏游戏中做出诸多的应对策略，因为这从某种程度上意味着人工智能有超越现有技术成就、变得更灵活变通的潜力了。通过简单的游戏规则，多智能体便体现了强大的竞争意识，那么基于大规模的标准强化学习算法，未来可以促使更多智能体不断实现自我优化，从而做出更多应对复杂策略的决策。

OpenAI最近已经开源了该系统代码以及部署环境，以鼓励同行在这一领域的深入研究。

其实这样的技术进步，不仅推动了游戏领域的设计与开发。还有可能作为研究通用人工智能（AGI）的第一步，将其转化为解决现实世界问题的能力，比如，未来可能将AGI技术应用于预测诊断疾病、预测复杂蛋白质结构等实用性领域。

题图来源：Pixabay

参考资料

[1] Why Playing Hide-and-Seek Could Lead AI to HumanlikeIntelligence Retrieved Sep 18, 2019 from https://syncedreview.com/2019/09/17/why-playing-hide-and-seek-could-lead-ai-to-humanlike-intelligence/

[2] OpenAI teaches AI teamwork by playing hide-and-seek RetrievedSep 18, 2019 from https://venturebeat.com/2019/09/17/openai-and-deepmind-teach-ai-to-work-as-a-team-by-playing-hide-and-seek/

[3] Emergent Tool Use from Multi-Agent Interaction Retrieved Sep18, 2019 from https://openai.com/blog/emergent-tool-use/

药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康，带你看全AI时代的智慧之光。

产业机器学习OpenAI强化学习

相关数据

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

策略网络技术

在强化学习中，策略网络指一组相对稳定的关系，这些关系具有非等级和相互依赖的性质，将各个行为者（actor）联系起来。

来源：igi-global

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

通用人工智能技术

通用人工智能（AGI）是具有一般人类智慧，可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标，也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机器具有执行通用智能行为（general intelligent action）的能力。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知能力。

来源：wikipedia