让人工智能像人类一样理解世界一直是研究者们努力的方向。最近,DeepMind 在这条路上又向前迈进了一步,他们提出的符号-概念关联网络(SCAN)第一次让机器可以像人类接收视觉和语言信息那样学习基础概念,并通过单纯的语言指令利用已学习到的概念重组,想象出全新的概念。值得一提的是,DeepMind 创始人 Demis Hassabis 的大名也出现在了该研究的作者名单中。
在 2500 年以前,美索不达米亚人用黏土、木材和芦苇永远改变了世界的面貌。随着时间的发展,他们的算盘让贸易和理财变得更加容易,技术的进步刺激了经济的发展。
那一刻的灵感也从另一个角度闪耀着人类的力量:我们具有重组已有概念并想象全新事物的能力。发明者必须考虑他们需要解决的问题,他们对此可以建立的方式,以及他们可以收集的材料来创造新事物。黏土可以用作底板,木棍可以制成框架,而芦苇可以用作计数器。每个组件都是已有的独特事物,而它们的组合形成了革命性的新东西。
「组合性」理念是人类创造力、想象力和语言交流能力的核心。配备了少量熟悉的概念构建块,我们就能够快速创建大量新的概念构建块。人类可以通过将概念置于从特定到更普遍的层次结构中,然后以全新的方式重新组合层次结构的不同部分,从而自然地做到这一点。
然而,这种对于人类而言轻而易举的事,对于人工智能来说是一个巨大的挑战。
在 DeepMind 最近提交的论文《SCAN: Learning Abstract Hierarchical Compositional Visual Concepts》中,研究人员提出了一个新方式来解决这个问题。我们首先提出了一种全新的神经网络单元:符号-概念关联网络(SCAN),它可以——第一次——像人类接收视觉和语言那样学习基础视觉概念,它可以通过语言指令想象出全新的概念。
SCAN 模型以和几个月大的婴儿一样的方式通过视觉感受世界。在这个阶段,人类婴儿的眼睛还无法聚焦于任何超过手臂距离以外的事物,他们只能把精力用在观察视线距离以内运动和旋转的事物。为了模拟这个过程,研究人员将 SCAN 置于 DeepMind Lab 模拟 3D 环境中,它就像在婴儿床里一样无法移动,但可以通过转头来观察场景内与背景颜色不同的三种物体——帽子、手提箱和冰棍。和人类婴儿的视觉系统一样,我们的模型可以学习视觉世界里的基础构成,以及如何使用视觉判断「基元」来解释观察到的物体。例如,当看到一个苹果时,模型可以学会如何用颜色、形状、大小、位置或光照来形容它。
SCAN 的学习以基本可解释的视觉定义来表达看到的场景,如对象身份、颜色、旋转、墙壁颜色和底色等。
一旦我们的模型可以通过基元来解释视觉世界的事物,我们就进入了学习过程的命名阶段。这相当于语言学习的过程,就像成年人开始为婴儿看到的事物提供符号标签。例如,在这个阶段,家长可以在孩子面前指着苹果说:「看,一个苹果!」同样,在 SCAN 的 DeepMind Lab 环境中,它也接受了基础语言输入的指导,红色手提箱在黄色墙边的图像会被形容为「红色手提箱,黄色墙」。SCAN 可以学习这些输入的概念,并通过此前观察到的视觉理解来形成新的概念。例如,苹果的概念可以根据其颜色、形状和大小来指定,而诸如位置和光照等其他视觉原语被正确地识别为与苹果这个概念无关。
这个命名过程可以用于学习层次结构中任何地方的概念。同样的过程也可以用于教育模型重组的概念,如「and」、「ignore」和「in common」,我们仅需通过少量的例子就可以教会模型如何正确地使用它们。例如,「and」的意义可以通过向 SCAN 展示一张「金色而好吃」的苹果图片,并配有指令:「golden delicious IS yellow AND apple」。
一旦 SCAN 通过符号指令学会大量概念以及操控这些概念的方式,它就能够通过口头指令结合类似的概念生成全新的概念,不需要任何图像作为样本。通过这样的指令,SCAN 能够想象大量的全新视觉概念,比如蓝色的苹果(blue AND apple)、或者不同种类的苹果(granny smith IS golden delicious IGNORE yellow, AND green)。
第一个 SCAN 通过语言指令贯穿概念层次,即从对应于「白色手提箱在有粉红地板的黄色房间中」这一特定概念到「手提箱」这个一般性的概念,还有再返回到更特定的概念「绿色手提箱在有着粉红色地板的黄色房间中」。SCAN 在每一步都需要想象对应的概念(如上图左侧所示)。最后,SCAN 获得了新概念的意义-「woog」。即使没有见过一个「wong」的案例,但 SCAN 仍然能成功地想象这一概念到底是怎么样的(一个绿色的物体在带有粉红色地板的黄色房间中)。
我们的方法不同于该领域以前的研究,因为它完全基于传感数据并且只从很少的图片-单词对中进行训练。其他深度学习方法可能需要数千图片样本以学习一个概念,SCAN 从视觉基元和抽象概念中学习,其中抽象概念主要从无监督观察值与少量标注了概念的图片对(每个概念只需要 5 个标注数据)中得到。在经过训练后,SCAN 就可以生成与特定图像相对应的各种概念列表,并且即使它没有经历过那些概念,同样可以想象与特定概念相对应的各种视觉样本。
左图展示了 SCAN 想象的白色行李箱,右图 SCAN 生成的分别对应粉色房间、黄色地板、有一青色帽子的图像。
通过符号指令结合已有物体学习新概念的能力让人类能够推理宇宙、人文主义等抽象的概念,而我们的算法要做到这样的概念性跃进还有一段距离,这项研究是我们迈出的第一步:算法能够以无监督的方式学习,并思考人类用到的抽象概念。
论文:SCAN: Learning Abstract Hierarchical Compositional Visual Concepts
论文链接:https://arxiv.org/abs/1707.03389
自然世界是有无穷无尽的变化的,这种多样性是从一个相对较小部分的合理属性与法则中得到的,比如物理或化学定律。我们猜想生物智能系统能够通过探索规律性,和把这些知识信息表征为抽象概念,而在它们的多样性环境中进行生存,规律性是通过利用非监督性经验而从根本性法则中得到的。这些表征拥有有用的复合性和阶层式组织的属性,可以使智慧体把有限的概念性组成部分重组成大量有用的全新概念。
本论文描述了学习视觉区域这种概念的新框架:SCAN(Symbol-Concept Association Network)。在训练 SCAN 通过快速的符号关联(symbol association)来提取解开的视觉基本实体中的抽象概念之前,我们首先使用之前公开的 beta-VAE(Higgins et al., 2017a)架构学习被解开的表征(视觉世界隐藏结构)。我们的方法不需要符号与图像之间的很多匹配,也不假设对符号表证的选择。一但训练完成,SCAN 能够进行多模态的双向推断,从符号描述中生成一系列的图像样本,反之亦然。它也能够通过符号指令和学习到的逻辑重组运算,对组成的视觉概念进行遍历(traversal)与操控。这样的操控使得 SCAN 能够通过重组旧概念创造、学习全新的视觉概念。