视频可以理解为一组快速播放的图片,其中每一幅图片定义为帧(frame)。一般处理视频数据首先需要按每秒钟x帧(fps)的频率去对视频做抽取,然后将n个连续的frame组成一个片段(clip),这样视频就被切割成了很多不重叠的片段。对于每一个片段clip(包含m个frame)使用CV领域中pretrained模型(如ResNet等)抽取特征向量(visual features),最终视频被表示成特征向量的序列。
从视频中抽取出来的特征向量自然是连续实值向量(属于整个实数空间),和离散的文本有很大的不同。当前,将视频的特征向量注入BERT主要有下面两种方式:
(1)Pipeline方式:将实值向量离散化,和文本token对齐加入到BERT模型中;
(2)端到端的方式:微调BERT模型结构,直接使用实值向量参与计算。
这是一篇将BERT结合video来学习跨模态表示的经典之作。该工作将video中提取出的特征向量通过聚类的方法离散化,继而在文本token的基础上增加视觉token,一起学习视觉和文本信息。
1 方法
1.1 视频文本数据处理(video and language processing)
针对video的处理,首先从input video每秒中抽取20帧画面(20 fps),每30帧组成一个片段。对每个clip用pretrained的ConvNet提取特征向量(1024维)。但是由于特征向量属于整个R^1024空间,是不可数的。为了和文本token相对应,延续原始BERT中的MLM任务,作者对所有提取出的特征向量使用hierarchical k-means做聚类,一共得到20736个类中心。把类中心作为visual token,每一个视觉特征向量都由它属于的类中心来表征。
针对文本的处理,使用现成的语音识别工具(Automatic Speech Recognition)提取视频中的文本,利用LSTM-based的语言模型对其断句。后续处理延续原始的BERT,用WordPieces切词,词表大小为3万。
1.2 输入格式(input format)
经过前面的处理,video中的语言和视觉信息都变成了离散的token,VideoBERT的输入格式延续了原始BERT的设计,只是增加了[>]这个特殊的token用来区分text token和visual token。
1.3 自监督任务(pretrain)
原始BERT有两个自监督任务:
(1)cloze(完形填空)/MLM(mask language model):预测被mask的text token;
(2)NSP(next sentence prediction):预测两个句对是否是连续的上下句。
第一个任务可以很自然的扩展到visual token中。像text token一样,提前mask visual token,利用没被mask的text token和visual token预测被mask的visual token,是一个多分类问题,使用softmax作为损失函数。
第二个任务NSP在VideoBERT中变成预测text sequence和visual sequence是否一致,即两者是否提取自同一个视频。类似的原始BERT,我们从其他视频数据中抽取visual sequence作为负例,来自该视频数据的visual sequence作为正例。是一个二分类问题。
1.4 下游任务
VideoBERT通过上述两个自监督任务实际上学习了visual-liinguistic的联合表示(分布)p(x,y),其中x表示visual sequence,y表示text sequence。这个联合分布可以用在下列三种任务上:
(1)text-to-video: 根据文本预测视频,根据文本自动插图。
(2)video-to-text: 根据视频预测文本,对视频自动生成摘要。
(3)unimodal fashion(单一模态下使用):利用文本或者视频的边缘分布,根据上文预测下文。对文本来说就是我们非常熟悉的语言模型,对于视频来说我们可以根据前面的视频内容预测后面可能发生的事情。
2 实验
文章实际设计了两个下游任务来验证学习到的跨模态联合表示的有效性。
2.1 看图说话
根据视频和一个固定的模版“now let me show you how to [MASK] the [MASK],” 预测被mask掉的关键词(一个动词和一个名字)。下图定性的展示了三个例子,每个例子展示了视频中两个片段的类中心,和被预测的top verbs和nouns。
表格中的数据定量对比了该任务在不同方法上的效果。S3D是一个经典的监督模型,除了S3D以外的模型都没有使用监督信号进行训练(zero-shot classification,直接使用pre-trained模型)。BERT(language prior)代表直接使用原始BERT,VideoBERT(language prior)是指在原始BERT基础上增加视频数据提取出得文本数据进行学习,VideoBERT(cross modal)是完整模型并结合了视频和文本数据进行学习。对比实验结果可以看到,top-5的准确率,三种BERT设定效果不断提升,验证了数据的有效性和多模态的有效性,最终zero-shot的VideoBERT(cross modal)能够达到和有监督学习的S3D差不多的效果。而top-1的结果各类BERT稍显逊色的原因是BERT基于word piece切词,更有利于open-vocablary的分类问题,主要关注语义上的准确性而不是精确的match。
2.2 video caption
作者利用该任务验证VideoBERT作为特征抽取的有效性。使用同样的transformer encoder-decoder模型生成视频摘要,不同的是输入该模型的feature。
(1)使用S3D提取的feature(baseline)
(2)使用VideoBERT提取feature
(3)VideoBERT feature拼接S3D feature(最强厂牌)
从定性的例子中可以看到,使用VideoBERT feature生成的video caption内容更加的细节,更为生动具体。从定量的指标上来看,VideoBERT+S3D取得了最好的效果,VideoBERT学出来的feature对下游任务video caption有很大的提升。
看了上一篇的工作,小伙伴们可能会有一个疑问,将实值连续型的特征向量(visual features)通过聚类规整为有限个类中心,是否会丢失video中包含的很多细节的信息呢(⊙ˍ⊙)?那么,这篇文章就不再使用聚类将实值连续型的visual features离散化,而是直接使用实值向量visual features,通过模型算法上的微调,实现BERT的多模态化。
1 方法
首先上模型全景图,虚线上面是pretrain阶段,虚线下面是下游任务的fine-tuning。灰色方框表示使用纯文本数据预训练BERT模型然后fix。白色黑线方框表示使用纯video数据预训练CBT模型,红色线条部分是使用多模态数据预训练cross-modal transformer将前面两者结合。小夕下面带大家逐个揭开每个部分的神秘面纱~~~
1.1 纯文本的BERT模型
自监督任务还是原始BERT的MLM,随机mask text token利用周围没有被mask的文本进行预测。
其中yt为被mask的正确token,y-t表示除去被mask掉yt的text sequence。这个MLM的损失函数实际上是要最大化利用y-t正确预测出yt的概率。而在这里根据y-t预测yt的概率被定义为如下。
其中为经过transformer得到的feature。优化目标是被mask的word sequence y-t的表示和真实的yt的embedding相似(共线)。
上述BERT和原始的BERT本质上是一样的,只是用内积的形式代替了softmax计算概率。这一小小的修改和后面visual部分的建模相呼应,模型结构非常的优雅。
1.2 visual CBT模型
基于video数据的自监督任务同样是无缝衔接的MLM模型,但是因为visual feature是连续的实值向量,所以作者使用了NCE(noise contrastive estimation )loss:
对比上面的BERT中概率的定义,和NCE的定义是不是超级相似!🧐
是被mask的visual sequence经过visual BERT的输出。因为visual feature不可数,无法像text部分穷举所有的负例,所以通过负采样的方式sample负例。优化目标是被mask的visual sequence x-t的表示和真实的xt的visual feature et相似。
1.3 跨模态CBT模型
前面介绍了单一模态下的模块,针对既有视频(从video中提取的visual features记为y=y1:T)和文本(从video中利用ASR提取出的文本token,记为x=x1:T)的数据,利用它们之间的对应关系学习多模态交互的表示就交给cross-modal CBT模块啦~~
虽然visual features y和文本x来自同一段视频,但是即使是教学视频,它们在每一帧(frame level)并不是严格对应的,所以我们不能强行要求模型可以通过xt预测yt或者通过yt预测xt。只需要要求它们在sequence level上存在对应关系即可(说人话就是模型可以通过x预测y)。同样使用NCE loss:
分别用visual CBT和BERT模型计算x和y的表示。
带入cross-modal transformer计算交互的表示,用一个浅层的MLP计算x和y之间的互信息。优化目标和前面两个类似,正例(x,y)之间的互信息大,负例(x,y‘)互信息小。
1.4 overall model
整体模型就是上面三个部分的综合。三个部分虽然输入都稍有差异,但是在算法上是非常一致对称的,结合起来非常的完美。
2 实验
2.1 action recognition
用action recognition作为下游任务验证visual representaions的有效性。下表的左边对比了两种pretrain策略(Shuffle&Learn 和3DRotNet )和baseline随机初始化,在fix feature和finetune的两种使用方法上在两个数据集(UCF101和HMDB51)上的效果。实验结果表明了本文提出的visual CBT模型的有效性。表的右边是直接和各类state-of-art的监督模型相比,CBT模型也比这些模型有非常明显的提升。
2.2 action anticipation
文章使用了三个不同的数据集the Breakfast dataset ,the 50Salads dataset和the ActivityNet 200 dataset。不了解action anticipation任务的可以简单认为是基于video的多分类任务就好。在这个实验中作者不仅证明了CBT方法比其他已有的方法好,还证明了CBT对长video有很好的表示能力。
左边表列出了CBT和其他几个方法的对比,CBT在上述三个任务上都一致优于其他方法(三个实验数据摆上来,非常让人信服呀),其中self-super=Y表示该方法使用pretrain-finetune的方式,self-super=N表示该方式是end-to-end训练的。
文章还对比了video captioning 和 action segmentation 这两个任务,CBT在video captioning上比前面提到的VideoBERT也有所提升,这个提升可能就是优化了聚类步骤造成信息丢失的问题吧。