2016/11/11 14:02

让机器像儿童一样触摸世界，DeepMind训练人工智能玩积木

Synced (193).jpg

触摸，挪动，破坏，甚至尝尝味道，儿童从小就在用这种方式了解身边的世界，机器可以吗？现在，谷歌 DeepMind 和加州大学伯克利分校共同开发的人工智能系统也要开始它接触世界的旅程了。

「很多对于世界的观感，如『我可以坐在这吗？』或『它是湿软的吗？』通过实践才能获得最好的解答。」DeepMind 研究科学家 Misha Denil 说道。在刚刚提交的一篇论文中，Denil 与他的团队讲述了他们正在训练人工智能在两个不同的虚拟环境中与物理对象进行交互，从而感知虚拟世界的物理规律。

一开始，人工智能面对五个相同尺寸的积木，它们内部的质量是随机的，在每次训练中都会变化。如果人工智能识别出质量最大的积木，系统就会给予正反馈，如果失败，则给予负反馈。经过反复试验，人工智能发现检测最重积木的最佳方式是在做出选择之前观察所有积木。

随后，研究人员进行第二个试验，五个被随机组合，有的堆叠在一起，有的单独放置。人工智能必须理解有几个积木被整合在一起，同时给出关于质量的答案。随着试验的进行，人工智能开始理解它必须与积木的整体进行交互——拆分组合的积木，观察每一块的重量进行相加，才能得出正确的答案。

这不是人工智能第一次玩积木了。在今年 3 月，Facebook 在一个研究中也使用积木模型来训练神经网络，他们的人工智能试图预测堆叠的积木是否会倒塌。

人工智能的儿童游戏

使用正负反馈训练计算机的方法被称为深度强化学习（deep reinforcement learning），这是 DeepMind 擅长的领域。在 2014 年，这家公司的人工智能训练人工智能玩 Atari 游戏，随后他们被谷歌收购。

这一新方法受到发展心理学文献的启发，儿童在幼年时会花费大量的时间对随机对象进行探索和实验（Smith＆Gasser，2005; Gopnik，2012; Spelke＆Kinzler，2007）。通过让人工智能代理在交互式模拟环境中进行物理实验，人工智能学会了操纵对象并观察后果以推断隐藏对象属性。研究人员证明了这种方法在两个重要的物理理解任务中的效率——推断质量和计数在视觉模糊条件下的对象的数量。人工智能在虚拟世界中的训练非常基础，人工智只需进行有限的交互，不需要处理现实世界中出现的复杂情况。但这项研究仍然表明人工智能可以在未经事先输入的情况下理解物理性质和物理定律。

「这项研究的成果对于机器人而言意义重大。」麻省理工学院的吴佳俊说道，「例如，它可以帮助机器人在复杂地形下导航。」

Denil 也认为他们的研究是一种突破：「我认为这项成果距离应用还有一段路要走，但理论上它适用于任何方面，当机器需要理解现实世界的规律时，这样的方式相比被动观察前进了一大步。」

论文：通过深度强化学习来学习做物理实验（LEARNING TO PERFORM PHYSICS EXPERIMENTS VIA DEEP REINFORCEMENT LEARNING）

摘要：当遇到新物体时，人类可以通过互动来探究它的各种物理特性，如质量、摩擦力和可塑性，最后理解它。这种积极的过程与科学家寻求真理的精神是一致的。人工智能最近的发展让机器在围棋，Atari 游戏，自然语言识别和一些复杂问题的处理中的表现已经超越人类，但我们还不清楚这些系统是否能与儿童的科学直觉相媲美。

在本研究中，我们让人工智能进行了一系列基本任务，让人工智能代理探究隐藏在事物背后的性质，例如模拟交互环境中事物的质量和内聚性。在模拟环境中，它们可以操作分析对象，观察互动的后果。我们发现，现有的深度强化学习方法可以学会进行必要的实验，发现事物的隐藏属性。通过系统地分析问题的难度和代理自我探究产生的成本，我们发现代理在学习过程中可以发展出不同策略，平衡在不同环境中收集信息产生的成本与试错产生的成本。

理论Deepmind深度强化学习理论强化学习物理