文章库 PRO通讯会员 SOTA！模型

行业内参

AI Daily

AI Daily 快讯 · 2019/09/03

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

在论文《VL-BERT: Pre-training of Generic Visual-Linguistic Representations》中，来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型（Visual-Linguistic BERT，简称 VL-BERT），该模型采用简单而强大的 Transformer 模型作为主干网络，并将其输入扩展为同时包含视觉与语言输入的多模态形式，适用于绝大多数视觉-语言下游任务。为了让 VL-BERT 模型利用更为通用的特征表示，作者在大规模图片描述生成数据集 ConceptualCaptions 中进行 VL-BERT 的预训练，实验证明此预训练过程可以显著提高下游的视觉-语言任务的效果，包含视觉常识推理、视觉问答与引用表达式理解等。值得一提的是，在视觉常识推理排行榜中，VL-BERT 取得了当前单模型的最好效果。

PM 3:04arxiv.org

登录后评论

暂无评论

暂无评论~

登录

PRO会员通讯

文章库 PRO通讯会员 SOTA！模型