Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

让机器帮你做行测题,UCLA朱松纯团队提出关系和类比视觉推理数据集RAVEN

早期为机器加入高级推理的工作一直围绕着视觉问答(VQA)展开,但 VQA 所需的推理能力只处于认知能力测试圈的边缘。为了突破当前视觉推理能力的极限,UCLA 朱松纯团队基于一项更难的人类视觉推理任务——瑞文测试(RPM,例如《行测》中的图形推理题)构建了关系和类比视觉推理数据集 RAVEN。与之前使用 RPM 评估抽象推理能力的工作不同,他们通过提供结构表征来建立视觉和推理之间的语义联系。通过对结构表征进行联合操作,可以实现新型的抽象推理。

项目地址:http://wellyzhang.github.io/project/raven.html

视觉研究不仅必须包括如何从图像中提取信息,同时也是对信息的内部表征本质的探究,从而将其作为决定我们想法和行动的基础。(David Marr,1982 年 [35])

计算机视觉应用范围非常广泛。一些计算机视觉问题明显是纯粹从视觉上「捕获」视觉信息的过程;例如,早期视觉过滤器 [5] 以 primal sketch[13] 作为中间表征,以格式塔法则(Gestalt law)[24] 作为感知组织。相比之下,其他一些视觉问题对于感知图像的要求比较琐碎,但是在关系或类比视觉推理方面能解决更普遍的问题 [16]。在这种情况下,视觉组成成为「决定我们想法和行动的基础」。

目前,大多数计算机视觉任务都聚焦于「捕获」视觉信息的过程;很少有工作重点放在后面的部分——关系或类比的视觉推理。在为人工系统配备推理能力方面,现有的一项工作围绕着视觉问答(VQA)展开 [2,22,48,58,62]。然而,VQA 所需的推理能力只处于认知能力测试圈的边缘 [7]。为了突破计算机视觉的极限,甚至人工智能(AI)的极限,在认知能力测试圈的中心,我们需要设计一个用于测量人类智能的测试来挑战、调试和改进现有的人工系统。

一个非常有效的人类视觉推理能力测试已经开发出来,被称为瑞文测试(Raven's Progressive Matrices,RPM)[28,47,52]。瑞文测试(RPM)是一项广泛应用的非文字推理能力测试,属于渐近性矩阵图。测试者需要在渐进矩阵图中根据直接观察结果进行间接抽象推理。这一测试已得到广泛认可,并被认为与真实智能高度相关 [7]。与 VQA 不同,RPM 直接位于人类智能中心 [7],是对抽象和结构推理能力的判断 [9],并且描述了高级智能的定义特征,即流体智能 [21]。

图 1:(a) RPM 示例。其中一项任务是根据结构和类比关系,选择出最符合逻辑的图像。每个图像都有一个底层结构。(b) 具体地说,在该问题中,这是一个由内而外的架构,外部组成是一个只有一个中心的目标分布,内部组成是一个 2×2 的网格布局。图 2.(c) 中的细节列出了 (a) 中的规则。规则的各种性质组合起来使这个问题变得难解。正确答案是 7。

图 1 显示了 RPM 问题及其结构表征。提供了由视觉上简单的元素组成的两行图形,一个必须有效地导出正确的图像结构(图 1(b))和基本规则(图 1(c)),从而共同推理出最佳的候选图像。就所需的推理水平而言,RPM 可能比 RPM 更难:

  • 在 VQA 中,自然语言指出了图像中需要注意的东西,但 RPM 与之不同,它仅依赖于矩阵中提供的视觉线索和对应问题本身,即找到正确的编码属性级,这已经是区分不同智力人群的一个主要因素了 [7]。

  • VQA 只需要空间和语义理解,但 RPM 需要在问题矩阵和答案集中进行时空联合推理。短期记忆的限制、类比能力以及结构的发现也必须考虑在内。

  • RPM 中的结构使规则的组合更加复杂。VQA 的问题仅编码相对简单的一阶推理,但 RPM 通常包括更复杂的逻辑,甚至使用递归。通过在不同级别编写不同的规则,推理过程可能会非常困难。

为了突破当前视觉系统推理能力的极限,UCLA 朱松纯团队生成了一个新的数据集,以促进该领域的进一步研究。他们将这个数据集称为关系和类比视觉推理数据集(RAVEN),以纪念 John Raven 开创 RPM 的工作 [47]。综上所述:

  • RAVEN 由 1,120,000 个图像和 70,000 个 RPM 问题组成,均匀分布在 7 种不同的图形配置中。

  • 每个问题都有 16 个树结构注释,在整个数据集中共计 1,120,000 个结构标签。

  • 研究者设计了 5 个规则管理属性和 2 个噪声属性。每个规则管理属性至少包含 4 个规则之一,同一组中的对象共享同一组规则,共计 440,000 个规则注释,每个问题平均有 6.29 个规则。

RAVEN 数据集本身设计为轻视觉识别、重推理的形式。每个图像仅包含一组简单灰度物体,边界清晰没有遮挡。与此同时,规则是逐行应用的,每个属性可有一个规则,以应对视觉系统在短期记忆和组成成分推理中的主要弱点 [22]。

一个明显的悖论是:在这个组合和结构化的 RPM 问题中,以前的工作没有提供结构注释(如[3,55])。因此,研究者开始在 RPM 中建立视觉推理和结构推理之间的语义联系。他们将每个问题实例与属性随机图像语法(A-SIG)[12,30,43,56,60,61] 的句子相对应,并将数据生成过程分解为两个阶段:第一阶段从预定义的 A-SIG 中对句子进行采样,第二阶段基于句子渲染图像。这种结构化设计使数据集非常多样化,且易于扩展,从而可以在不同的图形配置中进行泛化测试。更重要的是,数据生成流程为他们提供了丰富的密集注释,尤其是图像空间中的结构。视觉和结构表征之间的这种语义联系,将问题分解为图像理解和树或图级推理,从而有了新的可能 [26,53]。实验证明,采用简单的结构推理模块,将视觉层级的理解和结构层级的推理结合起来,可以显著提高模型在 RPM 中的性能。

图 2:RAVEN 创建过程。(b) 说明了 A-SIG 中使用的语法生成规则。(c) 显示布局和实体具有关联的属性。(a) 给定随机采样的规则组合,首先修剪语法树(修剪透明分支)。然后将图像结构与来自 (b) 的属性值一起采样,用黑色表示,并应用规则集 (a) 生成单个行。重复该过程三次得到 (d) 中的整个问题矩阵。(e) 最后对约束属性进行抽样,并在正确的答案中改变它们以打破规则并获得候选答案集。

图 4:推荐的 RAVEN 数据集中 7 种不同图形配置的示例。

表 2:人类受试者和计算机中每个模型的测试准确度。Acc 表示每个模型的平均精度,其他列显示不同图形配置下的模型精度。L-R 表示左-右,U-D 表示上-下,O-IC 表示圆外-圆内,O-IG 表示网外-网内。注意,完美的解决方案可以访问规则运算并搜索符号问题表征。

论文:RAVEN: A Dataset for Relational and Analogical Visual rEasoNing

论文链接:https://arxiv.org/abs/1903.02741

涉及低级感知的基本视觉任务(例如物体识别、检测和追踪)已经取得了显著的进展。不幸的是,就更高级别的视觉问题而言,人工视觉系统与人类智能之间仍存在巨大的性能差距,尤其是推理问题。早期为机器配备高级推理的工作一直围绕着视觉问答(VQA)展开,这是一项将视觉和语言理解联系起来的典型任务。在此项工作中,我们提出了一个新的数据集,它基于瑞文测试(RPM),旨在通过将视觉与结构、关系和类比推理在层级表征中相关联来提升机器智能。与之前使用 RPM 测量抽象推理的工作不同,我们通过提供结构表征来建立视觉和推理之间的语义联系。通过对结构表征进行联合操作,可以实现新型的抽象推理。在这个新提出的数据集中,我们评估了使用现代计算机视觉的机器的推理能力。此外,我们还提供人类表现作为参考。最后,我们通过合并一个结合视觉理解和结构推理的简单神经模块,在所有模型上都实现了改进。

理论UCLA朱松纯计算机视觉CVPR 2019论文数据集视觉问答视觉推理
2
相关数据
朱松纯人物

朱松纯是全球著名计算机视觉专家,统计与应用数学家、人工智能专家,现任美国加州大学洛杉矶分校 [UCLA] 统计系与计算机系教授,UCLA计算机视觉、认知、学习与自主机器人中心主任。

类比推理技术

在两种情况或事件之间感知和使用关系相似性的能力 - 是人类认知的一个基本方面。

视觉问答技术

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

推荐文章
暂无评论
暂无评论~