2025/03/12 10:28

18项任务200万视频编辑对，云天励飞联合多高校打造出大规模编辑数据集

目前的视频编辑算法主要分为两种：一种是利用 DDIM-Inversion 完成视频编辑，另一种是利用训练好的编辑模型。然而，前者在视频的一致性和文本对齐方面存在较大缺陷；后者由于缺乏高质量的视频编辑对，难以获得理想的编辑模型。

为了解决视频编辑模型缺乏训练数据的问题，本文作者（来自香港中文大学、香港理工大学、清华大学等高校和云天励飞）提出了一个名为 Señorita-2M 的数据集。该数据集包含 200 万高质量的视频编辑对，囊括了 18 种视频编辑任务。

数据集中所有编辑视频都是由经过训练的专家模型生成，其中最关键的部分由作者提出的视频编辑专家模型完成，其余部分则由一些计算机视觉模型标注，例如 Grounded-SAM2 和深度图检测模型等。

论文标题：Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists
论文地址: https://arxiv.org/abs/2502.06734
项目地址: https://senorita-2m-dataset.github.io

数据分布见下图。

专家模型的开发和数据集的构造

除了常见的计算机视觉模型，作者提出的视频编辑专家模型一共有 4 个，负责五种编辑任务。

第一个编辑专家模型称为 Global Stylizer，负责对输入视频进行风格转换，它基于现有的视频生成基模型开发。

然而，作者发现视频生成基模型在接受风格信息方面存在不足，因此无法利用 ControlNet 的思想进行风格转换。

为了解决这一问题，作者首先利用图像 ControlNet 对首帧进行处理，然后使用视频 ControlNet 对剩余的帧进行处理，将首帧的风格信息推广到剩余的视频帧中。在训练过程中，采用了两阶段策略，并通过冻结部分层以降低成本。在第一阶段，模型在低分辨率视频上训练；在第二阶段，微调模型以提高分辨率。

在生成数据阶段，作者采用 Midjourney 和 Stable Diffusion 常用的 290 种风格 prompt，对视频进行风格转换，并使用 LLM 对风格 prompt 转换成指令。

第二个编辑专家模型称为 Local Stylizer，与 Global Stylizer 不同的是，它负责对某些物体进行风格方面的编辑。

由于对物体进行风格编辑，不需要接受复杂的风格指令，因此这个模型不使用首帧引导。除此之外，作者使用与 Global Stylizer 相同的 ControlNet 架构，并引入了 inpainting 的思想，保证只有物体本身被修改。

在生成数据阶段，作者采用 LLM 对物体进行改写并产生指令。在获取新的信息后，使用作者的模型对物体进行重绘。

第三个专家模型是 Text-guided Video Inpainter，用来完成物体的替换。

在实践中，作者发现直接开发一个视频 inpainter 的效果会远远弱于基于首帧引导的视频 inpainter。因此，作者使用 Flux-Fill 这一高效的图像 inpainter 对首帧进行处理，并使用作者的 inpainter 对剩下的视频进行补全。这样做的好处是将作者的视频 inpainter 只负责将首帧的视频补全内容推广到剩余的视频帧，减少了编辑的难度。

为了进一步减小视频标注过程中引入的数据噪声，作者将编辑的视频作为源视频，将原始视频作为目标视频。这样做的好处是避免基于数据集训练的视频编辑模型学到扭曲和抖动。作者利用 LLM 对源物体和目标物体进行组合并产生用于编辑的指令。

第四个专家模型是 Object Remover。作者用这个专家模型来完成物体去除和物体添加两部分的数据构造。物体添加任务为物体去除任务的逆任务，只需要将标注视频当作源视频，原始视频当作目标视频即可完成数据对的构造。

对于这个专家模型的构造，作者提出了一种反转训练的策略，将训练的 90% 数据的 mask 替换为与视频内容无关的 mask，训练视频恢复的背景和 mask 形状无关。这样可以有效避免视频 remover 根据 mask 形状再次生成物体。

作者还将 10% 的数据设置为和视频物体严格一致的 mask，这样可以训练 remover 产生物体，在推理时将这一条件设置为负 prompt 来避免去除区域内的物体的产生。作者使用 LLM 对使用的 prompt 转换成用于物体去除和物体添加的指令。

除此之外，作者还使用了多种计算机视觉模型对视频进行标注。例如，使用了 Grounded-SAM2 来标注经过 Grounding 的视频，目的是用来训练模型对物体的感知能力，帮助编辑模型对区域的编辑。作者还使用了其他多种专家模型，这些模型一共标注了 13 种视频编辑任务。相似的，这些数据对应的指令也使用 LLM 进行增强。

数据集的清洗

为了保证视频对的可靠性，作者使用多种过滤算法对生成的视频进行清洗。

具体来讲，首先训练了一个检测器用来检测编辑失败的数据，去除那些有害的视频。其次，使用 CLIP 对文本和视频的匹配度进行检测，丢弃匹配度过小的数据。最后，比对了原始视频和编辑视频的相似度，丢弃掉没有明显编辑变化的视频。

基于 Señorita-2M 数据集的编辑模型训练

作者使用 CogVideoX-5B-I2V 作为基模型，利用首帧引导的方式，使用 Señorita-2M 训练了一个编辑模型。这个模型和之前方法的实验比较结果表明，基于该数据集训练的模型具有更强的一致性、文本视频对齐，以及更好的用户偏好度。

为了进一步证明数据的有效性，作者做了消融实验，使用了相同数据量的 InsV2V 和 Señorita-2M 视频对 CogVideoX-5B-T2V 进行微调。结果发现，使用了 Señorita-2M 的数据，可以大大增强文本匹配度。

另外，增加了训练数据的数量后，这些指标会有明显的改善。这些实验证明了该数据集可以有效地训练出高质量的视频编辑器。更多实验数据详见表 1。

^{表 1. 基于 Señorita-2M 训练的模型和其他编辑方法的对比}

另外，作者还探索了目前的一些编辑架构，采用和 instruct-pix2pix 以及 controlnet 相同的架构，并基于 CogVideoX-5B 来构建视频编辑模型。另外，作者还采用 omni-edit 图像编辑对这基于两个架构的视频编辑模型进行增强。结果发现，使用图像数据增强的模型会有更好的文本匹配度以及用户偏好度。

除此之外，作者还采用了首帧引导的方式进行编辑模型。实验结果证明，在视频编辑中，使用 ControlNet 相比于 Instruct-pix2pix 会有更好的编辑效果，基于首帧引导的编辑模型可以比非首帧引导的模型获得更好的编辑效果。具体实验结果详见表 2。

^{表 2. 不同编辑架构之间的对比}

总结

作者训练了一系列视频编辑专家模型，用它们和其他计算机视觉模型创建了一个高质量的、基于指令的视频编辑数据集。这个数据集中包含了 18 种不同的视频编辑任务，拥有 200 万的视频编辑对。作者使用了一系列的过滤算法对产生的数据进行筛选，并使用 LLM 对指令进行生成和增强。

实验证明，该数据集可以有效地训练出高质量的视频编辑模型，在视觉效果帧间一致性和文本对齐度等指标上有着较大的提升。除此之外，作者采用了不同的编辑架构对视频编辑进行探索，并得出了一系列结论。作者还设计了消融实验，证明使用相同基础模型的情况下，使用该数据集的数据会大大提升编辑模型的编辑能力。

工程Señorita-2M云天励飞