2017/03/06 16:27

CVPR 2017最新论文：使用VTransE网络进行视觉关系检测

知识表示学习的思想（TransE）已经被成功应用于视觉关系提取（Visual Relation Extraction），提交 CVPR 2017 的新论文《Visual Translation Embedding Network for Visual Relation Detection》提出的 VTransE 方法是在这方面所迈出的重要一步。清华大学计算机系助理研究员刘知远对此评论说：「视觉关系和语义关系既有重叠又有互补，未来会有很多有趣的问题值得探索。」机器之心对本论文进行了摘要介绍，论文全文可点击文末「阅读原文」下载。

论文：Visual Translation Embedding Network for Visual Relation Detection

摘要：「一个人骑自行车」和「在汽车旁边骑自行车」这样的视觉关系能为理解图像提供综合场景，也在计算机视觉和自然语言的连接上展现了其作用。然而，由于建模主谓宾关系三元组的组合复杂性（combinatorial complexity），很少有工作研究定位和预测视觉关系。基于最近知识库的关系表征学习和卷积网络检测物体的发展，我们提出了一种用于视觉关系检测的视觉转化嵌入网络（VTransE，Visual Translation Embedding network）。VTransE 在低维关系空间确定物体关系，这种关系可被建模为简单的向量转换，即主语+谓语≈宾语。我们提出一种全新的特征提取层，能够以全卷积的方式完成物体关系知识（object-relation knowledge）的迁移，其支持在简单的前向\后向通路中训练与推理。据我们所知，VTransE 是首个端到端的关系检测网络。我们在两个大型数据集（Visual Relationship 和 Visual Genome）上证明了 VTransE 相比其他顶级方法的有效性。要注意，虽然 VTransE 只是一个纯视觉模型，它仍然可与 Lu 的带有语言先验知识的多模态模型媲美。

图 1：在此论文中，我们的重点是检测视觉关系（中间一层的虚线框）。不同于低层视觉和高层语言之间的直接关系，视觉关系提供物体交互间的直接理解。这能为图像注释、问答系统这样的应用提供更深的语义信息。

图 3：VTransE 网络概述。输入图像首先通过物体检测模块（也就是一个卷积定位网络），输出一系列检测到的物体。然后，检测到的物体被输入到关系预测模块进行特征提取和视觉转换潜入。特别地，物体的视觉特征使用 Bilinear Interpolation 从最后的卷积特征映射提取出来。

入门神经科学论文CVPR 2017理论计算机视觉