2024/03/05 11:33

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

在 2024 世界经济论坛的一次会谈中，图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测，而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征，正是促进该过程的关键技术。

然而，当下视频与文本描述间广泛存在的噪声关联现象严重阻碍了视频表征学习。因此本文中，研究者基于最优传输理论，提出鲁棒的长视频学习方案以应对该挑战。该论文被机器学习顶会 ICLR 2024 接收为了 Oral。

论文题目：Multi-granularity Correspondence Learning from Long-term Noisy Videos
论文地址：https://openreview.net/pdf?id=9Cu8MRmhq2
项目地址：https://lin-yijie.github.io/projects/Norton
代码地址：https://github.com/XLearning-SCU/2024-ICLR-Norton

背景与挑战

视频表征学习是多模态研究中最热门的问题之一。大规模视频 - 语言预训练已在多种视频理解任务中取得显著效果，例如视频检索、视觉问答、片段分割与定位等。目前大部分视频 - 语言预训练工作主要面向短视频的片段理解，忽略了长视频中存在的长时关联与依赖。

如下图 1 所示，长视频学习核心难点是如何去编码视频中的时序动态，目前的方案主要集中于设计定制化的视频网络编码器去捕捉长时依赖 [2]，但通常面临很大的资源开销。

^{图 1：长视频数据示例 [2]。该视频中包含了复杂的故事情节和丰富的时序动态。每个句子只能描述一个简短的片段，理解整个视频需要具有长时关联推理能力。}

由于长视频通常采用自动语言识别（ASR）得到相应的文本字幕，整个视频所对应的文本段落（Paragraph）可根据 ASR 文本时间戳切分为多个短的文本标题（Caption），同时长视频（Video）可相应切分为多个视频片段（Clip）。对视频片段与标题进行后期融合或对齐的策略相比直接编码整个视频更为高效，是长时时序关联学习的一种优选方案。

然而，视频片段与文本句子间广泛存在噪声关联现象（Noisy correspondence [3-4]，NC），即视频内容与文本语料错误地对应 / 关联在一起。如下图 2 所示，视频与文本间会存在多粒度的噪声关联问题。

^{图 2：多粒度噪声关联。该示例中视频内容根据文本标题切分为 6 块。（左图）绿色时间线指示该文本可与视频内容对齐，红色时间线则指示该文本无法与整个视频中的内容对齐。t5 中的绿色文本表示与视频内容 v5 有关联的部分。（右图）虚线表示原本给定的对齐关系，红色指示原本对齐中错误的对齐关系，绿色则指示真实的对齐关系。实线表示通过 Dynamic Time Wraping 算法进行重新对齐的结果，其也未能很好地处理噪声关联挑战。}

粗粒度 NC（Clip-Caption 间）。粗粒度 NC 包括异步（Asynchronous）和不相关（Irrelevant）两类，区别在于该视频片段或标题能否与现有标题或视频片段相对应。其中「异步」指视频片段与标题间存在时序上的错位，例如图 2 中 t1。由于讲述者在实际执行动作的前后进行解释，导致陈述与行动的顺序不匹配。「不相关」则指无法与视频片段对齐的无意义标题（例如 t2 和 t6），或是无关的视频片段。根据牛津 Visual Geometry Group 的相关研究 [5]，HowTo100M 数据集中只有约 30% 的视频片段与标题在视觉上是可对齐的，而仅有 15% 是原本就对齐的；
细粒度 NC（Frame-Word 间）。针对一个视频片段，可能一句文本描述中只有部分文字与其相关。在图 2 中，标题 t5 中「糖撒在上面」与视觉内容 v5 强相关，但动作「观察釉面脱落」则与视觉内容并不相关。无关的单词或视频帧可能会阻碍关键信息提取，从而影响片段与标题间的对齐。

方法

本文提出噪声鲁棒的时序最优传输（NOise Robust Temporal Optimal transport, Norton），通过视频 - 段落级对比学习与片段 - 标题级对比学习，以后期融合的方式从多个粒度学习视频表征，显著节省了训练时间开销。

^{图 3 视频 - 段落对比算法框架图。}

1）视频 - 段落对比。如图 3 所示，研究者以 fine-to-coarse 的策略进行多粒度关联学习。首先利用帧 - 词间相关性得到片段 - 标题间相关性，并进一步聚集得到视频 - 段落间相关性，最终通过视频级对比学习捕捉长时序关联。针对多粒度噪声关联挑战，具体应对如下：

面向细粒度 NC。研究者采用 log-sum-exp 近似作为 Soft-maximum 算子去识别帧 - 词和词 - 帧对齐中的关键词和关键帧，以细粒度的交互方式实现重要信息抽取，累计得到片段 - 标题相似性。
面向粗粒度异步 NC。研究者采用最优传输距离作为视频片段和标题之间的距离度量。给定视频片段 - 文本标题间相似性矩阵，其中表示片段与标题个数，最优传输目标为最大化整体对齐相似性，可天然处理时序异步或一对多（如 t3 与 v4,v5 对应）的复杂对齐情况。

其中

为均匀分布给予每个片段、标题同等权重，

为传输指派或重对齐矩，可通过 Sinkhorn 算法求解。

面向粗粒度不相关 NC。受特征匹配中 SuperGlue [6] 启发，我们设计了自适应的可对齐提示桶去尝试过滤不相关的片段与标题。提示桶是一行一列的相同值向量，拼接于相似性矩阵上，其数值代表是否可对齐的相似度阈值。提示桶可无缝融入最优传输 Sinkhorn 求解中。

通过最优传输来度量序列距离，而非直接对长视频进行建模，可显著减少计算量。最终视频 - 段落损失函数如下，其中

表示第

个长视频与第

个文本段落间的相似性矩阵。

2）片段 - 标题对比。该损失确保视频 - 段落对比中片段与标题对齐的准确性。由于自监督对比学习会将语义相似的样本错误地作为负样本优化，我们利用最优传输识别并矫正潜在的假阴性样本：

其中

代表训练批次中的所有视频片段和标题个数，单位矩阵

代表对比学习交叉熵损失中的标准对齐目标，

代表融入最优传输矫正目标

后的重对齐目标，

为权重系数。

实验

本文旨在克服噪声关联以提升模型对长视频的理解能力。我们通过视频检索、问答、动作分割等具体任务进行验证，部分实验结果如下。

1）长视频检索

该任务目标为给定文本段落，检索对应的长视频。在 YouCookII 数据集上，依据是否保留文本无关的视频片段，研究者测试了背景保留与背景移除两种场景。他们采用 Caption Average、DTW 与 OTAM 三种相似性度量准则。Caption Average 为文本段落中每个标题匹配一个最优视频片段，最终召回匹配数最多的长视频。DTW 和 OTAM 按时间顺序累计视频与文本段落间距离。结果如下表 1、2 所示。

^{表 1、2 在 YouCookII 数据集上的长视频检索性能比较}

2）噪声关联鲁棒性分析

牛津 Visual Geometry Group 对 HowTo100M 中的视频进行了手工重标注，对每个文本标题重新标注正确的时间戳。产出的 HTM-Align 数据集 [5] 包含 80 个视频与 49K 条文本。在该数据集上进行视频检索主要验证模型是否过度拟合了噪声关联，结果如下表 9 所示。

^{表 9 在 HTM-Align 数据集上针对噪声关联的有效性分析}

总结与展望

本文是噪声关联学习 [3][4]—— 数据错配 / 错误关联的深入延续，研究多模态视频 - 文本预训练面临的多粒度噪声关联问题，所提出的长视频学习方法能够以较低资源开销扩展到更广泛的视频数据中。

展望未来，研究者可进一步探讨多种模态间的关联问题，例如视频往往包含视觉、文本及音频信号；可尝试结合外部大语言模型（LLM）或多模态模型（BLIP-2）来清洗和重组织文本语料；以及探索将噪声作为模型训练正激励的可能性，而非仅仅抑制噪声的负面影响。

^{参考文献：}

^{1. 机器之心，“Yann LeCun：生成模型不适合处理视频，AI 得在抽象空间中进行预测”，2024-01-23.}

^{2.Sun, Y., Xue, H., Song, R., Liu, B., Yang, H., & Fu, J. (2022). Long-form video-language pre-training with multimodal temporal contrastive learning. Advances in neural information processing systems, 35, 38032-38045.}

^{3.Huang, Z., Niu, G., Liu, X., Ding, W., Xiao, X., Wu, H., & Peng, X. (2021). Learning with noisy correspondence for cross-modal matching. Advances in Neural Information Processing Systems, 34, 29406-29419.}

^{4.Lin, Y., Yang, M., Yu, J., Hu, P., Zhang, C., & Peng, X. (2023). Graph matching with bi-level noisy correspondence. In Proceedings of the IEEE/CVF international conference on computer vision.}

^{5.Han, T., Xie, W., & Zisserman, A. (2022). Temporal alignment networks for long-term video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2906-2916).}

^{6.Sarlin, P. E., DeTone, D., Malisiewicz, T., & Rabinovich, A. (2020). Superglue: Learning feature matching with graph neural networks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 4938-4947).}

产业视频表征学习ICLR 2024Yann LeCun

相关数据

自动语言识别技术

自然语言识别是用计算机确定写入文档、语音或其一部分的自然语言的问题。

来源：arXiv

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

交叉熵技术

交叉熵（Cross Entropy）是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小

来源：维基百科

视觉问答技术

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

表征学习技术

在机器学习领域，表征学习（或特征学习）是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前，机器学习研究人员需要利用手动特征工程（manual feature learning）等技术从原始数据的领域知识（domain knowledge）建立特征，然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效，但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点，它使得机器不仅能学习到数据的特征，并能利用这些特征来完成一个具体的任务。

来源：Wikipedia

假阴性技术

假阳性是指模型因为种种原因将应该分类成特定情况的人/物错误地分类到了其他分类的情况。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

批次技术

模型训练的一次迭代（即一次梯度更新）中使用的样本集。

来源：Google ML glossary

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分：命名实体识别（目标是识别和分类真实世界里的知名实体）和关系提取（目标是提取实体之间的语义关系）。概率模型/分类器可以帮助实现这些任务。

来源：机器之心

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/