Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南编译

谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA

MV-GPT,一种用于多模态视频字幕的新生成预训练框架。

多模态视频字幕系统利用视频帧和语音来生成视频的自然语言描述(字幕)。这样的系统是朝着构建多模态对话系统的长期目标前进的一步,后者可以轻松地与用户交流,同时通过多模态输入流感知环境。

与关键挑战在于处理和理解多模态输入视频的视频理解任务不同,多模态视频字幕的任务包括生成实用化字幕的额外挑战。这项任务被采用最广泛的方法是使用手动注释数据联合训练编码器 - 解码器网络。

然而,由于缺乏大规模的人工标注数据,为视频注释可用字幕的任务是非常耗费人力的,在许多情况下不切实际。VideoBERT 和 CoMVT 等先前的研究通过利用自动语音识别(ASR)对未标记视频的模型进行预训练。然而,此类模型通常无法生成自然语言句子,因为它们缺少解码器,因此只有视频编码器被转移到下游任务。

在 CVPR 2022 大会上发表的论文《End-to-end Generative Pretraining for Multimodal Video Captioning》上,谷歌研究人员为多模态视频字幕引入了一种全新的预训练框架,被称为多模态视频生成预训练或 MV-GPT,它从未标记的视频中联合训练多模态视频编码器和句子解码器,以输出未来语句文本,制定新的双向生成任务作为目标。
论文链接:https://arxiv.org/pdf/2201.08264.pdf

实验证明 MV-GPT 的能力可以有效地转移到多模态视频字幕上,在各种基准测试中取得了 SOTA 结果。此外,多模态视频编码器在多种视频理解任务方面具有竞争力,例如 VideoQA、文本视频检索和动作识别。

未来语句作为附加文本信号

通常,用于多模态视频字幕的每个训练视频剪辑都要与两个不同的文本相关联:其一作为多模态输入流的一部分,与剪辑对齐的语音转录本;其二是目标字幕,通常需要手动注释。编码器需要学习将文本中的信息与视觉内容融合,目标标签用于训练解码器进行生成。

但在未标记视频的情况下,每个视频剪辑仅带有来自 ASR 的脚本,没有手动注释的目标标签。此外,我们不能对编码器输入和解码器目标使用相同的文本(ASR 转录本),因为这对生成目标没有多少意义。

MV-GPT 通过利用未来的话语作为附加文本信号并启用编码器和解码器的联合预训练来规避这一挑战。但是,训练模型以生成通常不以输入内容为基础的未来话语效果并不理想。因此,谷歌应用了一种新的双向生成损失函数来加强与输入的关联。

双向生成损失

我们可以通过制定包括前向和后向生成的双向生成损失来缓解非基础文本生成的问题。前向生成在给定视觉框架及其相应的转录本的情况下生成未来语句,并允许模型学习将视觉内容与其相应的转录本融合。反向生成采用视觉帧和未来语句来训练模型,以生成包含更多视频剪辑基础文本的脚本。

MV-GPT 中的双向生成损失允许对编码器和解码器进行训练以处理基于视觉的文本。

MV-GPT 中的双向生成,已训练两代损失。在前向生成中,模型在给定帧和当前话语(红色框)的情况下生成未来话语(蓝色框),而现在是从后向生成中的未来话语生成的。两个特殊的句首标记([BOS-F] 和 [BOS-B])为解码器启动前向和后向生成。

多模态视频字幕生成结果

研究人员将 MV-GPT 与使用相同模型架构的现有预训练损失进行比较,在 YouCook2 上使用标准评估指标(Bleu-4、Cider、Meteor 和 Rouge-L)。虽然所有预训练技术都可以提高字幕性能,但联合预训练解码器提高模型性能的效果最为明显。

实验证明了 MV-GPT 比之前最先进的联合预训练方法高出 3.5% 以上,并且在所有四个指标上都有相对增益

MV-GPT 在 YouCook2 上不同预训练损失的四个指标(Bleu-4、Cider、Meteor 和 Rouge-L)。「预训练部分」表示模型的哪些部分是预训练的 —— 仅编码器或编码器和解码器。作者重新实现了现有方法的损失函数,但使用新模型和训练策略进行公平比较。


研究人员将 MV-GPT 预训练的模型转移到四个不同的字幕基准:YouCook2、MSR-VTT、ViTT 和 ActivityNet-Captions 上。

谷歌的模型在所有四个基准测试中都以显著优势实现了最先进性能。例如在 Meteor 指标上,MV-GPT 在所有四个基准测试中都显示出超过 12% 的相对改进。

业内最佳方法和 MV-GPT 在四个基准上的度量分数。

尽管 MV-GPT 是旨在训练多模态视频字幕的生成模型,但研究发现新预训练技术学习了一个强大的多模态视频编码器,可应用于多种视频理解任务,包括 VideoQA、文本视频检索动作分类等任务。

与最佳可比基线模型相比,从 MV-GPT 迁移的模型在五个视频理解基准的主要指标上表现出卓越的性能 —— 如在 VideoQA 和动作分类基准的 top 1 准确度,以及检索基准的召回率上。

在五个视频理解基准上将 MV-GPT 与最佳可比基线模型进行比较。对于每个数据集,此处报告了广泛使用的主要指标,即 MSRVTT-QA 和 ActivityNet-QA:Top-1 回答准确率;MSR-VTT:Recall at 1;和 Kinetics:Top-1 分类准确度。

总结


本文介绍了 MV-GPT,一种用于多模态视频字幕的新生成预训练框架。它通过双向生成目标,使用在未标记视频中不同时间采样的话语联合预训练多模态编码器和字幕解码器。该预训练模型在多个视频字幕基准和其他视频理解任务(如 VideoQA、视频检索动作分类)上取得了最先进的结果。

原文链接:https://ai.googleblog.com/2022/06/end-to-end-generative-pre-training-for.html
理论MV-GPT预训练框架多模态视频字幕
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

动作分类技术

动作分类任务涉及从视频剪辑(一串二维帧序列)中识别不同的动作,并对动作进行归类。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

视频检索技术

视频检索的目的是给定一个文本查询和一个候选视频池,选择与文本查询相对应的视频。

推荐文章
暂无评论
暂无评论~