乔治亚理工学院、Facebook 新研究,ViLBERT:为任务预训练任务不可知的视觉及语言表示
近日,乔治亚理工学院联合Facebook及俄勒冈州立大学研究引社群关注。以下为论文概述:我们提出了 ViLBERT(视觉和语言 BERT 的简称),这是一种用于学习任务不可知的图像内容和自然语言联合表示的模型。我们将流行的 BERT 架构扩展为多模态双流模型,在单独的流中处理视觉和文本输入,通过共同注意力的变换器层进行交互。我们通过大型自动收集的概念字幕数据集上的两个代理任务预先训练我们的模型,然后将其转移到多个已建立的视觉和语言任务 - 视觉问答,视觉常识推理,引用表达和基于字幕的图像检索,仅对基础架构进行少量添加。与现有的任务特定模型相比,我们观察到各个任务的显着改进 - 在所有四个任务中实现最先进的成果。我们的工作代表了从视觉和语言之间的学习基础的转变,仅作为任务培训的一部分,并将视觉基础视为可预先培训和可转移的能力。