对齐语言词汇与视觉语义单位并用于图像标题
中科院研究论文近期引发机器学习社群关注,以下为论文概述:图像标题试图生成由几个语言词组成的句子,用于描述图像中的对象,属性和交互,在本文中表示为视觉语义单位。基于这种观点,我们建议基于图形卷积网络(GCN)明确地模拟对象交互的语义和几何,并充分利用语言词与图像字幕的视觉语义单元之间的对齐。特别地,我们构造了语义图和几何图,其中每个节点对应于视觉语义单元,即两个对象之间的对象,属性或语义(几何)交互。因此,语义(几何)上下文感知通过相应的 GCN 学习处理器获得每个单元的嵌入。在每个时间步骤,上下文门控注意模块将视觉语义单元的嵌入作为输入,并通过首先确定当前词的哪种类型的视觉语义单元(对象,属性或交互)来分层地将当前词与这些单元对齐,以及然后找到这种类型下最相关的可视语义单位。在具有挑战性的 MS-COCO 图像字幕数据集上进行了大量实验,并且在与现有技术方法进行比较时呈现了优异的结果。