1. 简介
人工智能的一个主要目标就是构建能够对感官环境进行强有力并且灵活地推理的系统 [1]。视觉提供了一个极其丰富和高度实用的领域,我们可以在其中通过建立系统对复杂的刺激执行逻辑推理 [2,3,4,5]。研究视觉推理的一个途径是对视觉问答 ( VQA ) 数据集进行建模,模型可以从中学习正确地回答关于静态图像的挑战性自然语言问题 [6,7,8,9]。尽管这些多模态数据集已经有了很大进步,但是目前的方法还存在几个局限性。首先,与推理一个问题的逻辑组成不一样,在 VQA 数据集上训练的模型刚好遵循图像中的固有统计特性的程度是不确定的 [10,11,12,13]。其次,这些数据集都避开了时间和记忆的复杂性,而这两者都是智能体设计 [1,14,15,16] 与视频分析、总结 [17,18,19] 中不可或缺的因素。
图 1. COG 数据集中的样本序列和指令。COG 数据集中的任务是测试目标识别、关系理解以及为解决问题而进行的记忆操作和适应。所有问题都可能涉及到当前图像和之前图像中的目标。注意在最后一个例子中,指令涉及到最后一个但不是最近一个「b」。前者排除了在当前图像中寻找「b」。白色箭头表示每个图像的目标响应。
为了解决 VQA 数据集中与空间关系的逻辑推理相关的缺点,Johnson 等人 [10] 最近提出了 CLEVER 来直接用于基本视觉推理模型的测试,以便与其他 VQA 数据集相结合 (例如,[6,7,8,9])。CLEVR 数据集提供了人工静态图像和关于这些图像的自然语言问题,让模型学习执行逻辑和视觉推理。最近研究中人们开发出来的网络能够达到几乎完美的准确率 [5,4,20]。
在这项工作中,研究者解决了视觉推理中的第二项限制,即关于时间和记忆的限制。推理智能体必须记住它的视觉历史中相关的片段,忽略不相关的细节,基于新的信息来更新和操作记忆,以及在后面的时间里利用这些记忆来作出决策。作者的方法就是创建一个人工的数据集,它具有时变数据中存在的很多复杂性,同时也避免了处理视频时的很多视觉复杂性和技术难题(例如,视频解码、时间平滑帧之间的冗余)。特别是,作者从认知心理学 [21,22,23,24,25] 和现代系统神经科学 [26,27,28,29,30,31] 最近几十年的研究中得到启发。这些领域有着基于空间和逻辑推理、记忆组成和语义理解将视觉推理分解为核心组件的悠久研究传统。为此,作者建立了一个称为 COG 的人工数据集,它也能用于人类的认知实验 [32,33,34],并能够及时地训练视觉推理。
COG 数据集是基于一种能够构建三元组任务集的编程语言开发的:三元组包含图像序列、语言指令以及正确答案的序列。这些随机生成的三元组能够在大量的任务序列中训练视觉推理,解决它们需要对文本的语义理解,对图像序列中每张图像的视觉认知,以及决定时变答案的工作记忆(图 3)。研究者在编程语言中特别强调了几个参数,开发者可以通过这些参数来从易到难地设定挑战性环境,从而对问题难度进行调制。
最后,作者引入了用于有记忆视觉推理的多模态循环架构。该网络将语义、视觉模块与状态控制器相结合,状态控制器调节视觉注意力和记忆,以便正确执行视觉任务。他们证明了该模型在 CLEVER 数据集上取得当前最佳的性能。此外,该网络还提供了稳健的基线,其可以在 COG 数据集的一系列设置中实现良好的性能。通过控制变量研究和对网络的动态分析,他们发现网络采用人类可解释的注意力机制来解决这些视觉推理任务。作者希望 COG 数据集、与之对应的网络架构和相关的基线结果能够为研究时变视觉刺激下的推理提供一个有用的基准。
3.COG 数据集
图 2. 生成综合的 COG 数据集。COG 数据集基于一系列的运算符(A), 这些运算符被组合以形成各种任务图 ( B )。( C ) 通过在任务图中指定所有运算符的属性来实例化任务。任务实例用于生成图像序列和语义任务指令。( D ) 正向传递图形和图像序列以用于正常任务执行。( E ) 生成一致的、偏差最小化的图像序列需要以反向拓扑顺序向后传递任务图,并且以反向时间顺序向后传递图像序列。
4. 网络
图 3. 本文提出的网络。图像序列被用来作为卷积神经网络 ( 绿色部分) 的输入。英语文本形式的指令被输入到顺序嵌入网络 (红色) 中。视觉短期记忆 ( vSTM ) 网络及时保存视觉空间信息并提供指向输出 ( 蓝绿色 )。vSTM 模块可以被认为是具有外部门控的卷积 LSTM 网络。状态控制器 (蓝色部分) 直接或间接提供所有注意和门控信号。网络的输出是离散的 (语言) 或 2D 连续的 (指向的)。
5. 结果
表 1. CLEVER 上的测试准确率:人类、基线、仅靠训练中的任务指令和像素输入的性能顶尖模型,以及本文提出的模型。(*)代表的是所用的预训练模型。
图 4. 本文提出网络的工作时的思想过程,通过可视化单个 CLEVER 样本的注意力和输出来展示。( A ) 来自 CLEVER 验证集的示例问题和图像。( B ) 每个思考步骤的有效特征注意图。(C) 相关的空间注意力图。(D) 语义注意力。( E ) 排名前 5 的语词输出。红色和蓝色分别表示较强和较弱。在同时特征注意到「小金属球」和空间注意到「位于红色橡胶目标之后」,被关注物体的颜色 (黄色) 反映在语词输出中。在后来的思考过程中,网络特征注意的是「大亚光球」,而正确的答案 (是) 出现在语词输出中。
图 5. 控制变量研究。CLEVER 测试集在不同的模型上的总体准确率; A 和 B 分别是 CLEVER 数据集和 COG 数据集:CLEVR 数据集的相关模型中未包含任何 vSTM 模块。(C)基于输出类型、是否涉及空间推理、操作符的数量以及任务图中的最后一个操作符来分析 COG 的准确率。
图 7. 本文提出的网络可以零样本地推广到新任务。用 44 个任务中的 43 个任务训练了 44 个网络。如图所示是 43 个已训练任务 (灰色) 的最大性能,迁移到一个没有经过训练的任务 (蓝色) 的最大性能,以及在这个任务上的机会水平(红色)。
论文:A dataset and architecture for visual reasoning with a working memory
论文链接::https://arxiv.org/pdf/1803.06092.pdf
摘要:人工智能中存在一个令人烦恼的问题,就是对复杂的、不断变化的视觉刺激中发生的事件进行推理 (如视频分析或游戏)。受认知心理学和神经科学中丰富的视觉推理和记忆的传统研究所启发,我们开发了一个人工的、可配置的视觉问答数据集 ( COG ),这个数据集可用于人类和动物的实验。尽管 COG 比视频分析的一般问题简单得多,但它解决了许多与视觉、逻辑推理以及记忆相关的问题,这些问题对现代深度学习架构来说仍然具有挑战性。此外,我们还提出了一种深度学习架构,该架构在其他诊断 VQA 数据集 (即 CLEVER) 以及 COG 数据集的简单设置上具有竞争力。但是,COG 的某些设置可以令数据集的学习越来越困难。经过训练,该网络可以零样本地泛化到许多新任务。对在 COG 上训练的网络架构的初步分析表明,该网络以人类可理解的方式完成任务。