Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

自从 Sora 发布以来,AI 视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。

和以往一眼就能识破是 AI 生成的模型不太一样,这批视频大模型可能是我们所见过的「最好的一届」。

然而,视频大语言模型(LLM)惊艳表现的背后离不开庞大且经过精细标注的视频数据集,这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法:采用训练好的图像大语言模型,直接用于视频任务的处理,这样就绕开了「昂贵」的训练过程。

此外,现有大多视频 LLM 存在两个主要缺点:(1)它们只能处理有限帧数的视频输入,这使得模型难以捕捉视频中细微的空间和时间内容;(2)它们缺少时间建模设计,而是简单地将视频特征输入到 LLM 中,完全依赖于 LLM 对运动的建模能力。

针对以上问题,苹果研究人员提出了 SlowFast-LLaVA(简称 SF-LLaVA)。这一模型基于字节团队开发的 LLaVA-NeXT 架构,无需额外微调,开箱即用。研究团队受在动作识别领域大获成功的双流网络的启发,为视频 LLM 设计了一套新颖的 SlowFast 输入机制。

简单来说,SF-LLaVA 将通过两种不同的观察速度(Slow 和 Fast)来理解视频中的细节和运动。

  • 慢速路径:低帧率提取特征,同时尽可能多地保留空间细节(例如每 8 帧保留 24×24 个 token)
  • 快速路径:高帧率运行,但用较大的空间池化步长降低视频的分辨率,以模拟更大的时间上下文,更专注于理解动作的连贯性

这相当于模型拥有两只「眼睛」:一只慢慢看,注意看细节;另一只快速看,注意看动作。这样就解决了大多现有的视频 LLM 的痛点,既能捕捉到详细的空间语义,又能捕捉到更长的时间上下文。

图片

论文链接:https://arxiv.org/pdf/2407.15841

实验结果显示,SF-LLaVA 在所有基准测试中均以显著的优势超越了现有免训练方法。与精心微调的 SFT 模型相比,SF-LLaVA 能达到相同性能,甚至更好。

图片

模型架构

如下图所示,SF-LLaVA 遵循标准的免训练视频 LLM 流程。它以视频 V 和问题 Q 作为输入,输出对应的答案 A。

图片

对于输入,要从每个视频任意大小和长度中均匀采样 N 帧,I = {I_1, I_2, ..., I_N},不需要对选取的视频帧进行特别的组合或排列。以帧为单位视独立提取频特征为 F_v ∈ R^N×H×W,其中 H 和 W 分别是帧特征的高度和宽度。

下一步需要在慢速和快速两个路径中进一步处理 F_v,并将它们结合起来作为有效的视频表示。慢速路径从 F_v 中均匀采样图片的帧特征,其中图片

此前有研究发现,在空间维度上适当池化可以提高视频生成的效率和鲁棒性。因此,研究团队在 F_v 上应用步长为 σ_h×σ_w 的池化过程,得到最终特征:图片,其中图片图片。慢速路径的整个过程如公式 2 所示。

图片

快速路径保留 F_v 中的所有帧特征,以尽可能多地捕捉视频的长程时间上下文。具体来说,研究团队使用空间池化步长图片对 F_v 进行激进的下采样,得到最终特征图片。研究团队设置图片图片,使得快速路径能专注于模拟时间上下文和运动线索。慢速路径的整个过程如公式 3 所示。

图片

最后,获得聚合的视频特征:图片,其中 flat 和 [, ] 分别表示展平和连接操作。如表达式所示,图片不需要任何特殊的 token 来分隔慢速和快速路径。SF-LLaVA 总共使用图片个视频 token。视频的视觉特征图片将和文本信息(比如用户提出的问题)将被组合在一起,作为输入数据送入大型语言模型(LLM)进行处理。

SlowFast 流程如公式 4 所示。

图片

实验结果

研究团队对 SF-LLaVA 进行了全面的性能评估,将其与当前 SOTA 免训练模型(如 IG-VLM 和 LLoVi)在多个视频问答任务中进行了对比。此外,他们还将其与经过视频数据集监督微调(SFT)的视频 LLM,例如 VideoLLaVA 和 PLLaVA 进行了比较。

开放式视频问答

如下表所示,在开放式视频问答任务中,SF-LLaVA 在所有基准测试中都比现有的免训练方法表现得更好。具体来说,当分别搭载 7B 和 34B 参数规模的 LLM 时,SF-LLaVA 分别在 MSRVTT-QA 上比 IGVLM 高出 2.1% 和 5.0%,在 TGIF-QA 上高出 5.7% 和 1.5%,在 ActivityNet-QA 上高出 2.0% 和 0.8%。

即使与经过微调的 SFT 方法相比,SF-LLaVA 在大多数基准测试中也展现了可比的性能,只有在 ActivityNet-QA 这一基准上,PLLaVA 和 LLaVA-NeXT-VideoDPO 略胜一筹。

图片

多项选择视频问答

从下表中可见,在所有基准测试中,SF-LLaVA 在多项选择视频问答的表现都优于其他免训练方法。在要求复杂长时序推理的 EgoSchema 数据集中,SF-LLaVA7B 和 34B 的版本相较 IG-VLM 模型的得分分别高出 11.4% 和 2.2%。

虽然 VideoTree 在基准测试中领先,因为它是基于 GPT-4 的专有模型,因而性能远高于开源 LLM。与 SFT 方法相比,SF-LLaVA 34B 模型在 EgoSchema 上也取得了更好的结果,这证实了 SlowFast 设计处理长视频方面的强大能力。
Text Generation 

图片

文生视频

如表 3 所示,对于文本生成视频的任务,SF-LLaVA 也显示出了一些优势。SF-LLaVA-34B 在整体表现上超越了所有免训练的基准。尽管在细节取向方面,SF-LLaVA 略逊于 LLaVA-NeXT-Image。基于 SlowFast 设计,SF-LLaVA 可以用更少的视觉 token 覆盖更长的时间上下文,因此在时间理解任务中表现得格外出色。

此外,在文生视频的表现上,SF-LLaVA-34B 也优于大多数 SFT 方法。

图片

更多细节,请参考原论文。
工程SlowFast-LLaVA
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~