谷歌多模态预训练框架：视频字幕、动作分类、问答全部实现SOTA

MV-GPT，一种用于多模态视频字幕的新生成预训练框架。

多模态视频字幕系统利用视频帧和语音来生成视频的自然语言描述（字幕）。这样的系统是朝着构建多模态对话系统的长期目标前进的一步，后者可以轻松地与用户交流，同时通过多模态输入流感知环境。

与关键挑战在于处理和理解多模态输入视频的视频理解任务不同，多模态视频字幕的任务包括生成实用化字幕的额外挑战。这项任务被采用最广泛的方法是使用手动注释数据联合训练编码器 - 解码器网络。

然而，由于缺乏大规模的人工标注数据，为视频注释可用字幕的任务是非常耗费人力的，在许多情况下不切实际。VideoBERT 和 CoMVT 等先前的研究通过利用自动语音识别（ASR）对未标记视频的模型进行预训练。然而，此类模型通常无法生成自然语言句子，因为它们缺少解码器，因此只有视频编码器被转移到下游任务。

在 CVPR 2022 大会上发表的论文《End-to-end Generative Pretraining for Multimodal Video Captioning》上，谷歌研究人员为多模态视频字幕引入了一种全新的预训练框架，被称为多模态视频生成预训练或 MV-GPT，它从未标记的视频中联合训练多模态视频编码器和句子解码器，以输出未来语句文本，制定新的双向生成任务作为目标。

论文链接：https://arxiv.org/pdf/2201.08264.pdf

实验证明 MV-GPT 的能力可以有效地转移到多模态视频字幕上，在各种基准测试中取得了 SOTA 结果。此外，多模态视频编码器在多种视频理解任务方面具有竞争力，例如 VideoQA、文本视频检索和动作识别。

未来语句作为附加文本信号

通常，用于多模态视频字幕的每个训练视频剪辑都要与两个不同的文本相关联：其一作为多模态输入流的一部分，与剪辑对齐的语音转录本；其二是目标字幕，通常需要手动注释。编码器需要学习将文本中的信息与视觉内容融合，目标标签用于训练解码器进行生成。

但在未标记视频的情况下，每个视频剪辑仅带有来自 ASR 的脚本，没有手动注释的目标标签。此外，我们不能对编码器输入和解码器目标使用相同的文本（ASR 转录本），因为这对生成目标没有多少意义。

MV-GPT 通过利用未来的话语作为附加文本信号并启用编码器和解码器的联合预训练来规避这一挑战。但是，训练模型以生成通常不以输入内容为基础的未来话语效果并不理想。因此，谷歌应用了一种新的双向生成损失函数来加强与输入的关联。

双向生成损失

我们可以通过制定包括前向和后向生成的双向生成损失来缓解非基础文本生成的问题。前向生成在给定视觉框架及其相应的转录本的情况下生成未来语句，并允许模型学习将视觉内容与其相应的转录本融合。反向生成采用视觉帧和未来语句来训练模型，以生成包含更多视频剪辑基础文本的脚本。

MV-GPT 中的双向生成损失允许对编码器和解码器进行训练以处理基于视觉的文本。

MV-GPT 中的双向生成，已训练两代损失。在前向生成中，模型在给定帧和当前话语（红色框）的情况下生成未来话语（蓝色框），而现在是从后向生成中的未来话语生成的。两个特殊的句首标记（[BOS-F] 和 [BOS-B]）为解码器启动前向和后向生成。

多模态视频字幕生成结果

研究人员将 MV-GPT 与使用相同模型架构的现有预训练损失进行比较，在 YouCook2 上使用标准评估指标（Bleu-4、Cider、Meteor 和 Rouge-L）。虽然所有预训练技术都可以提高字幕性能，但联合预训练解码器提高模型性能的效果最为明显。

实验证明了 MV-GPT 比之前最先进的联合预训练方法高出 3.5% 以上，并且在所有四个指标上都有相对增益。

MV-GPT 在 YouCook2 上不同预训练损失的四个指标（Bleu-4、Cider、Meteor 和 Rouge-L）。「预训练部分」表示模型的哪些部分是预训练的 —— 仅编码器或编码器和解码器。作者重新实现了现有方法的损失函数，但使用新模型和训练策略进行公平比较。

研究人员将 MV-GPT 预训练的模型转移到四个不同的字幕基准：YouCook2、MSR-VTT、ViTT 和 ActivityNet-Captions 上。

谷歌的模型在所有四个基准测试中都以显著优势实现了最先进性能。例如在 Meteor 指标上，MV-GPT 在所有四个基准测试中都显示出超过 12% 的相对改进。

业内最佳方法和 MV-GPT 在四个基准上的度量分数。

尽管 MV-GPT 是旨在训练多模态视频字幕的生成模型，但研究发现新预训练技术学习了一个强大的多模态视频编码器，可应用于多种视频理解任务，包括 VideoQA、文本视频检索和动作分类等任务。

与最佳可比基线模型相比，从 MV-GPT 迁移的模型在五个视频理解基准的主要指标上表现出卓越的性能 —— 如在 VideoQA 和动作分类基准的 top 1 准确度，以及检索基准的召回率上。

在五个视频理解基准上将 MV-GPT 与最佳可比基线模型进行比较。对于每个数据集，此处报告了广泛使用的主要指标，即 MSRVTT-QA 和 ActivityNet-QA：Top-1 回答准确率；MSR-VTT：Recall at 1；和 Kinetics：Top-1 分类准确度。

总结

本文介绍了 MV-GPT，一种用于多模态视频字幕的新生成预训练框架。它通过双向生成目标，使用在未标记视频中不同时间采样的话语联合预训练多模态编码器和字幕解码器。该预训练模型在多个视频字幕基准和其他视频理解任务（如 VideoQA、视频检索和动作分类）上取得了最先进的结果。

原文链接：https://ai.googleblog.com/2022/06/end-to-end-generative-pre-training-for.html

理论MV-GPT预训练框架多模态视频字幕