2016/02/22 12:01

谷歌DeepMind发布最新论文，解决「红蓝帽子」难题

先试着回答一个问题。

有一天，狱警别出心裁的想出了一种独特的囚犯特赦机制。他们让100名囚犯依次站成一纵队，每人戴一顶红色或蓝色的帽子，每个囚犯可以看到前面所有人的帽子——但看不见自己及后面人的帽子（比如，最后一个能看到前面99个人帽子颜色，但看不到自己的，倒数第二个死囚能看到前面98人帽子的颜色，但看不到自己及后面1个人的帽子，以此类推）。从队尾开始，狱警要问每个囚犯自己帽子的颜色。如果回答正确，他们将被赦免。在排队之前，囚犯们被允许可以一起商量，设计出一套回答问题的策略。他们应该怎么做？

是不是很难？谷歌的人工智能却没有被难倒。由谷歌的DeepMind团队开发的深度神经网络——一个教会自己打几十款经典街机游戏的软件——现在也可以解决像这样的难题。据说这道难题也是谷歌的面试问题之一。

问题的答案可以在未来帮助一起工作的机器人通过信息分享来解决难题。「这是朝人工智能之间的沟通和协作跨出的第一步。」与谷歌DeepMind团队一起合作研究，来自牛津大学的Jakob Foerster说道：「从长远来看，这会给人工智能增加更多扩展性，并允许它们解决以前不可能解决的问题。」

解决帽子谜语的方法是把每个人都被塑造成一个独立的智能代理。每个个体知道自己能看到的帽子颜色，各自决定怎么告诉别人，然后再使用共同的信息得出答案。

DeepMind此次使用了分布式深度递归网络（DDRQN），它使得每个代理能够学会解决基于通信的协作任务。在这些任务中，代理没有获得任何事先设定的通信协议。因此，它们为了成功的通信，必须首先自动的开发出它们自己的通信协议并在相互间达成一致。根据这些多代理学习问题的实证结果，分布式深度递归网络成功的解决了这些问题，并发现了完成这项工作所需要的优雅简洁的通信协议。这是第一次增强深度学习成功的学会通信协议。同时，DeepMind团队还提出了ablation experiments，证实了分布式深度递归网络架构中每一个核心部件的重要性。

在学习玩电脑游戏时，人工智能已经在很大程度上学会了如何解决问题。「他们有不同于人类的解决问题协议。」Foerster说，「我们还没有完全理解这些方案，但我们知道它们行得通。」

点击下载论文《Learning to Communicate to Solve Riddles with Deep Distributed Recurrent Q-Networks》

入门谷歌