“可灵(KLING)”,近半年来频繁亮相于国内外各大科技媒体,已然成为科技感与创意的代名词,它代表了快手 AI 团队在视频生成领域的前沿探索。
作为全球首个可公开体验的真实影像级视频生成大模型,可灵于 2024 年 6 月 6 日正式发布并上线。在短短半年多的时间里,可灵已完成了数十次功能与效果的升级迭代,始终稳居全球视频生成领域的第一梯队,持续引领着行业效果的提升。同时,它还陆续推出多项丰富且实用的控制与编辑功能,为全球创意制作人士提供了广阔的创作空间,充分激发并展现了他们的灵感。
与 "可灵 AI 平台" 在视频生成领域的广泛行业影响力不同,可灵团队及其研究工作始终保持着低调与神秘。然而,其背后的技术突破和创新思维却吸引了众多关注者的兴趣。
近日,可灵团队公开了多项研究成果,揭示了他们在视频生成领域的洞察与前沿探索。这不仅是对学术界和开源社区的回馈,也旨在激发行业与社区的创造力,共同推动该领域的技术进步。
此次公开的研究工作涵盖了视频生成模型成功的几个关键因素:数据基建的精炼之 “术” 与大模型训练的规模之 “道”:可灵团队分享了其数据基建核心流程,并推出了视频生成领域最高质量的大规模开源数据集 Koala-36M,为学界和社区模型训练提供坚实基础;同时将语言模型中 Scaling Law 引入视频生成领域,系统性地揭示了模型规模、超参数选择与训练性能之间的关系,为高效训练和性能优化提供了科学指导。
此外,他们还积极与学界合作,联合探索未来技术的演进方向,此次分享了和清华大学近期的合作成果:提出名为 Owl-1 的全新视频生成范式。该方法使用通用世界模型(Omni World model)建模视频生成过程,通过状态 - 观测 - 动作的闭环推理演化实现时序一致的长视频生成,展现了视频生成技术更远大的前景。
一、数据基建的精炼之 “术”
可灵背后的数据链路
在当今的大模型时代,数据的重要性不言而喻。高质量的大规模数据集是训练高性能模型的基础。然而,当前视频生成领域缺乏高质量的大规模预训练数据,这成为了制约模型发展的瓶颈。
为了解决这个问题,可灵团队开源了 Koala-36M,是目前开源的质量最高的大规模视频生成数据集,其背后的数据处理流程也是可灵大模型的重要支撑。与 SOTA 数据集 Panda-70M [1] 相比,Koala-36M 分别在视频切片、文本标注、数据筛选和质量感知上做出改进,大幅提高了文本视频的一致性。
如下所示,在相同的生成模型和训练步数下,相较于 Panda70M,在 Koala-36M 上预训练的模型具备更高的生成质量和更强的收敛性,充分证明数据集和处理流程的有效性。
快手开源的 Koala-36M 对应的论文题目为:A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content.
- 代码地址:https://github.com/KwaiVGI/Koala-36M
- 论文链接:https://arxiv.org/abs/2410.08260
- 项目主页:https://koala36m.github.io/
- 数据集链接:https://huggingface.co/datasets/Koala-36M/Koala-36M-v1
Koala-36M 包含 3600 万个视频片段,平均时长为 13.75 秒,分辨率为 720p,片段的文字 caption 平均长度为 202 个词,相较已有数据集,在质量上有大幅提升。
1、方法介绍
通过以下效果图的展示,可以发现 Panda-70M 存在视频切片不充分、文本描述简短、部分低质量视频保留的问题,Koala-36M 对上述方面进行更细致精准的改进。
Koala-36M 出发点是为视频生成模型提供精确且细致的条件控制,通过更加精准的视频切片、更加细致的文本描述、更加丰富的条件引入,使得模型感知与视频内容更加一致。
目前视频生成数据集处理方式有一些关键的问题有待解决:
- 文本与视频语义对齐:因为视频视觉信号更加细致,所以相应的文本描述需要丰富详细。此外,由于原始视频数据常包含复杂的转场,增加了文本语义对齐的难度。
- 低质量数据的筛选:低质量(如画质差或过多特效)的视频会妨碍模型训练,但对数据的质量评估和筛选过滤依然不够出色。目前主流方法多依赖于其他人工选择的质量指标和启发式阈值筛选,并非针对视频生成任务而设计,因此存在低质量数据漏检、高质量数据误删的情况。
- 数据质量的异质性:即使经过数据筛选,不同视频在不同维度仍然有质量上的偏差。然而模型无法对这些偏差进行感知,仅仅简单地将这些异质数据喂给模型可能导致模型学习的不确定性。
更精准快速的视频切割
视频切片是构建视频文本数据集的关键一步,无转场的视频能够更加契合文本描述,利于模型学习,从而使得生成结果更加时序一致。目前视频的切分算法一般使用 PySceneDetect [2],对于渐变转场识别表现不佳。
Koala-36M 提出新的切片算法 Color-Struct SVM (CSS),通过计算帧之间的结构距离和色彩距离,输入给 SVM 学习识别转场能力。对于渐变转场,Koala-36M 假设视频在时间变化上相对稳定,估计过去帧变化的高斯分布,根据当前帧的变化是否超出 3σ 置信区间判断显著变换。这种方法在不增加计算负担的情况下,增强了对渐变和快速运动场景的区分能力。Koala-36M 进一步在 10000 个标注转场的视频片段进行检测,证明算法在精度和运行效率上的有效性。
更加详细的视频描述会带来更好的视频文本一致性。为了获得更加详细的文本描述,Koala-36M 使用了一个结构化的文本标注体系,一段文本描述会被拆解为以下 6 个部分:和现有的工作相似,Koala-36M 首先通过 GPT-4V [3] 生成初步文本标注,微调基于 LLaVA [4] 的文本标注网络,为其余的数据打标。训练过程中采用了图像视频混合训练的方式,以缓解视频数据多样性不足的问题。最终得到 Koala-36M 的文本描述长度分布如下。视频原始数据的质量参差不齐,需要筛掉低质量的数据,保留高质量的数据。如下图蓝框所示,传统的数据筛选方式通过多个子度量指标来衡量视频的质量,并手动设置阈值对视频进行筛选。由于视频质量是所有子度量指标的联合分布,而子度量指标之间并非完全正交,所以设定的阈值之间应该存在隐含约束。然而,现有方法忽略了子度量指标的联合分布,导致阈值设置不准确。同时,由于需要设置多个阈值,不准确阈值的累积效应使得筛选过程中出现较大偏差,最终导致低质量数据的漏检和高质量数据的误删。为解决这一问题,Koala-36M 提出 Training Suitability Assessment Network(TSA),用于建模多个子度量指标的联合分布。该网络将视频和子度量指标作为输入,并输出单一值 “Video Training Suitability Score(VTSS)”,作为筛选数据的唯一指标,直接反映视频是否适合用于训练目的。具体来看,Koala-36M 构建了新的视频质量评价体系,考虑动态质量、静态质量和视频自然度等三个维度,邀请用户评测给出唯一分数并归一化,反映视频是否适合作为视频生成模型的训练数据。多模态输入视频评价网络 (TSA) 用于拟合用户打分。如上图所示,网络分为三个分支,动态分支以 3D Swin Transformer 为骨干,静态分支以 ConvNext 网络为骨干,传统数据筛选策略中的各种数据标签也被保留,作为额外信息通过新的分支传递给网络模型,不同分支的特征通过权重交叉门块(WCGB)融合。如下图所示,Koala-36M 的筛选流程能够大幅减少低质量数据漏检、高质量数据误删的情况。在现有的数据流程中,数据的标签只是简单地用于数据筛选。然而,筛选后的数据质量有所差异,导致模型难以区分高质量和低质量的数据。为了解决这个问题,Koala-36M 提出一种更精细的模型感知方法,在训练过程中将不同视频的质量标签注入生成模型,从而提高条件和视频内容之间的一致性。具体而言,在扩散模型训练过程中,将运动分数、美学分数和清晰度分数等数据通过自适应层归一化(AdaLN)加入 Transformer 中。这种条件加入方式不会增加扩散模型的计算负荷,反而会增强模型对异质数据的感知,加速模型的收敛。在推理阶段,可以设置不同的特征分数,细粒度地控制视频生成。此外,下图中表明基于 AdaLN 的注入方法相较于文本编码器的注入方法 [5] 具备更精细的运动幅度控制,和更强的风格解耦能力。Koala-36M 在不同数据集上预训练相同的视频生成模型,控制训练步数相同,衡量视频生成的质量,进一步对数据处理流程和训练策略的有效性进行验证。实验分为以下六组:- Koala-w/o TSA:视频分割和文本标注后的未经数据筛选的所有 48M 数据
- Koala-37M-manual:从 48M 使用多个阈值数据手动筛选的数据
- Koala-36M:从 48M 数据使用 VTSS 筛选的数据集
- Koala-w/o TSA (condition):带有 metrics condition 注入的未经筛选的 48M 数据
- Koala-36M (condition):带有 metrics condition 注入的 Koala-36M 数据
分别比较 Koala-w/o TSA 和 Koala-36M、Koala-w/o TSA (condition) 和 Koala-36M-condition 的训练结果,后者的结果均优于前者,表明筛选低质量数据能够防止模型从低质量数据中学习到有偏差的分布。此外,Koala-37M-manual 和 Koala-36M 的训练结果,表明基于单个 VTSS 的筛选方法相较于手动设置阈值能获得更好的筛选效果。对比 Koala-36M 和 Koala-36M (condition) 的训练结果,当注入 metrics condition 时,生成模型的视频质量有显著提高,表明使用指标指导模型训练,有助于模型隐式感知不同数据的重要程度。Koala-36M 是一个大规模高质量视频文本数据集,具有精确的视频切片、详细的文本描述和更高质量的视频内容。该数据集是目前唯一一个同时拥有大量视频(超过 1000 万)和高质量细粒度文字说明(caption 平均长度超过 200 字)的视频数据集,大大提高了大规模视频数据集的质量。此外,为了进一步提高细粒度条件与视频内容的一致性,Koala-36M 提出了一套完善的数据处理流程,包括更好的视频切片方法、结构化的文本标注系统、有效的数据筛选方法和异质数据感知。视频生成技术正迅速成为人工智能领域的核心热点,从娱乐内容创作到广告制作、虚拟现实和在线教育等场景,展现出巨大的应用潜力。然而,与静态图像生成不同,视频生成任务需要同时建模视觉结构与时间维度上的动态变化,还需处理复杂的高维解空间,以准确模拟现实世界的动态场景。这种复杂性不仅显著增加了数据和算力的需求,还使试验试错成本高昂。因此,如何在给定的数据和计算预算内实现最优性能,成为视频生成领域亟待解决的关键挑战。当前代表性的视频生成模型 Movie Gen 的参数规模已达到 300 亿,远超早期的 Video DiT(约 7 亿参数)。在此背景下,Scaling Law 的重要性日益凸显。尽管在语言模型中已经使用 Scaling Law 来预测性能,但在视觉生成模型中的存在性和准确推导仍然未得到充分探索。针对这一问题,在论文《Towards Precise Scaling Laws for Video Diffusion Transformers》中,快手研究团队提出了一种面向视觉生成模型(Video DiT)的更精确的 Scaling Law 建模方式。该文首次将批次大小和学习率进行精确建模,为任意模型大小和计算预算下的最优超参数选择提供指导,并对最优超参配置下的验证损失进行了精准预测。此外,该文进一步建立了最优模型大小和计算预算之间的精确关系。实验表明,与传统 Scaling Law 方法相比,在 1e10 TFlops 的计算预算下,该工作提出的推导方法可减少 40.1% 的推理成本,同时保持了相当的性能。这一成果为视频生成领域的高效优化提供了新的方向,并为行业开发大规模视频生成模型带来了重要启示。近年来,大语言模型(LLM)的研究揭示了模型性能、模型规模与计算预算之间的幂律关系,这一规律被称为 Scaling Law。通过对小规模模型的实验,研究者能够有效预测大规模模型的性能表现,从而在资源受限的条件下实现高效的模型优化。尽管 Scaling Law 已在语言模型领域取得显著成效,Image DiT 的 Scaling Law 也有初步研究,但视频生成的独特复杂性使得其在这一领域的研究仍是空白,成为限制更大规模视频生成模型开发的重要阻碍。技术难点:Video DiT 模型对超参数高度敏感随着 Video Diffusion Transformers(Video DiT) 的发展,其在生成视频质量和多样性方面取得了显著进展。本文尝试将语言模型领域的 Scaling Law 方法扩展应用于 Video DiT。然而,研究发现,Video DiT 模型的性能对批量大小、训练步长等超参数高度敏感,经验性的参数选择往往引入较大的不确定性,从而显著影响模型验证损失(如图 1 所示)。因此,构建适用于 Video DiT 的精确 Scaling Law 并优化超参数配置显得尤为重要。在语言模型的 Scaling Law 研究中,最优超参数的选择往往被忽略或存在一定争议。早期研究通常依赖启发式方法,缺乏系统性的理论依据来指导超参数选择。现有的 Scaling Law 研究在模型规模与超参数关系的细粒度探索方面仍有不足,而这对优化计算资源和提高拟合精度至关重要。现有的 Scaling Law 的问题包括:- OpenAI 的 Scaling Law。OpenAI 的研究认为,较小的批量大小计算效率更高,但需要更多更新步数才能收敛。然而, 本文实验结果表明,在相同计算预算下,采用较小的批量大小并增加更新步数,无法达到最低的验证损失。这说明在视频生成任务中,较小的批量大小未必是提高计算效率的最佳选择。
- Chinchilla 的 Scaling Law。Chinchilla 的研究将验证损失与模型参数量 N 及训练数据量 D 建立了联系,但验证损失的拟合结果与 IsoFLOPs 曲线在最优参数量预测上存在一定偏差。文章认为偏差可能源于固定的次优超参数配置,导致模型规模预测结果的不够精确。
- DeepSeek 的 Scaling Law。DeepSeek 的研究表明,在特定计算预算下,可以找到最小化验证损失的最佳批量大小与学习率组合。然而,该方法仅针对最优模型参数量选择对应的最优超参数,未能全面考虑超参数与模型规模及训练数据量的交互关系,这限制了方法在更广泛的场景中的适用性。
通过对这些经典研究的分析与反思,作者们发现优化超参数配置对于构建适用于 Video DiT 的 Scaling Law 至关重要。因此,本文将深入探讨超参数在模型性能优化中的作用,并在给定模型规模和训练数据量时预测超参数,从而为大规模模型的训练提供更加精确的理论依据与实践指导。研究者通过理论推导与实验验证,构建了最优学习率与批次大小的预测公式,并通过外推方法实现对大规模模型的精确预测。- 学习率选择的权衡。学习率的选择需要在每步收益与有效更新步数(验证损失下降的步数)之间取得平衡,以实现整体优化收益的最大化。基于理论推导,本文提出了最优学习率公式,其中参数取值如表所示:
实验结果表明,学习率与模型规模和训练数据量之间存在明确的非线性关系,基于公式的拟合曲线能够准确预测不同规模模型的最优学习率。- 训练批次大小的权衡。训练批次大小的选择需权衡每步梯度噪声与总更新步数之间的平衡。为此,本文从理论角度提出了最优批次大小公式,其参数值如表所示:
实验结果显示,批次大小与模型规模和训练数据量同样存在显著的依赖关系。拟合曲线的准确性在不同模型规模上表现一致。- 外推验证。为了验证公式的适用性,该工作将模型参数量扩展至 1B,并在 4B 和 10B 的训练数据集上分别进行最优超参数预测。实验结果显示,基于公式预测的超参数能够有效降低验证损失,其精度接近真实值(如图 4 所示)。
2、更精确的 Scaling Law:探索 video DiT 模型的性能边界 研究者基于上述最优超参数的预测提出了一种针对 Video DiT 的更精确的 Scaling Law,从模型规模、训练数据量与计算预算的平衡角度出发,不仅可以预测给定计算预算下的最佳模型大小,还可以为不同大小的模型提供更精确的性能预测。更高效的经验最优模型参数预测。在 [3e17, 6e17, 1e18, 3e18, 6e18] 等不同计算预算下,研究分别比较了使用最优和次优超参数配置时,经验最优模型参数(IsoFLOPs 曲线)的预测偏差(图 6)。研究发现: 在相同计算预算下(10^10 TFLOPs),使用最优超参数时的经验最优模型参数量相比非最优超参数可减少约 39.9% 的参数量(图 6c),推理成本减少了 40.1%。这在实际应用部署中所带来的收益是巨大的。
基于此,本文给出了经验最优模型参数量的经验预测公式:更高精度的验证损失拟合公式。研究进一步分析了模型验证损失随着训练 token 数 T 与模型规模 N 的变化, 论文根据假设:- 当,实现的最小损失取决于训练数据熵和噪声。同样,当 时,它取决于模型大小。
- 在计算预算趋于无穷时,损失趋近于训练数据熵。
基于上述假设,提出如下验证损失公式:- 研究者在最优超参数的前提下得到拟合结果如表所示。在 1.07B 模型 + 10B 训练 tokens 与 0.72B 模型 + 140B 训练 tokens 的场景中进行外推验证,验证损失误差分别为 0.03% 和 0.15%(图 5),证明了该公式的高拟合精度。
- 此外,研究者对 L (N,T) 施加算力约束,得到预测最优模型参数量(Predicted Optimal Model Size)与经验最优模型参数量(Empirical Optimal Model Size):(图 7)
- 在最优超参数的设定下,二者的拟合结果高度一致(指数项偏差为 3.57%),进一步证明了 L (N,T) 拟合的高精确性。
- 使用固定的非最优超参数配置,二者的拟合结果存在明显偏差(指数项偏差了 30.26%),这与 Chinchilla 的 Scaling Law 方法 3 所观察到的结果一致。本文认为造成这一显著偏差的原因在于拟合存在图 1 中非最优超参配置的灰色实验点降低了 L (N,T) 的拟合度。
本文深入探讨了 Video DiT 的 Scaling Law,提出了一种新的框架来优化超参数选择、模型规模和训练性能,为高效训练提供指导,具体来说:- Scaling Law for Hyperparameters. 本文通过理论分析与实验验证,提出了一种新的缩放规律,用于确定 Video DiT 的最优超参数。最优超参数主要依赖于模型规模 N 和训练数据量 D,并给出了准确的拟合公式。
- Scaling Law for Optimal Model Size. 基于最优超参数,该方法能够更准确地预测经验最优模型规模。与 Movie Gen 使用相同计算资源时,此方法的方法使模型规模减少了 39.9%,同时保持相似的性能。
- Scaling Law for Performance. 在最优超参数配置下,本文推导出一个通用公式,能够精确预测不同模型规模与计算预算下的验证损失。研究表明,在固定计算预算下,当模型规模接近最优时,验证损失趋于稳定,从而在性能相当(可预测)时可显著降低推理成本。此外,本文研究结果提供了模型规模与计算预算之间关系的准确外推,相比之下,使用固定次优超参数会导致预测误差显著增加。
目前,视觉生成模型已经在图像生成、视频生成等领域取得了显著进展。然而,这些模型仍然面临一些挑战,尤其是在生成长视频时,如何保持时序一致性和逻辑合理性是一个难题。传统的生成模型往往依赖于大量的数据和复杂的网络结构,但仍然难以完全解决这些问题。为了解决上述挑战,清华大学与快手科技联合提出了通用世界模型(Omni World Model)。这种模型通过状态 - 观测 - 动作的闭环推理演化,实现了时序一致的长视频生成。下面来详细了解一下 Owl-1 的核心技术和优势。- 状态变量:捕捉世界的当前状态和历史信息,可以被视频生成模型解码成对应的视频。
- 观测变量:对当前世界状态的直接观测,即看到的视频帧。
- 动作变量:描述了世界状态随时间的变化规律,以文本形式呈现,驱动着世界的演变。
这三个组成部分共同构成了一个闭环的演化系统,相互作用、相互影响,共同推动着世界的不断演变和视频的生成。通用世界模型能够直接捕捉并模拟三维世界的时空演变规律,从而提升生成视频的时序一致性和逻辑合理性。这意味着生成的视频不仅看起来自然,而且内容更加连贯,避免了单一或重复的内容。通过预测和利用演化动作变量,Owl-1 能够丰富生成视频的内容多样性。这使得生成的视频更加生动有趣,能够更好地反映真实世界的变化规律。论文标题:Owl-1: Omni World Model for Consistent Long Video Generation项目主页:https://github.com/huang-yh/Owl论文链接:https://arxiv.org/abs/2412.09600Owl-1 的目标是构建一个时序一致的长视频生成模型,其核心在于采用通用世界模型建模视频生成任务。为什么要使用通用世界模型呢?因为视频数据本质上是对周围世界演化过程的一种观测,是四维时空向三维观测的一种投影。而通用世界模型能够直接捕捉并模拟三维世界的时空演变规律,因此从世界模型的角度建模视频生成任务是一种更加有效和本质的方法。一方面,四维时空的一致性能够提高生成视频的时序一致性;此外,对于世界演化过程的显式建模也能提高生成视频内容的多样性和逻辑性,避免单一或者重复的内容。通用世界模型有三个核心组成部分,包括隐空间状态变量、显式观测变量和演化动作变量。这三个部分各自扮演着不同的角色:隐空间状态变量负责捕捉世界的当前状态和历史信息,它可以被视频生成模型解码成对应的视频。显式观测变量则是对当前世界状态的直接观测,即看到的视频帧。而演化动作变量则描述了世界状态随时间的变化规律,它驱动着世界的演变,并以文本的形式呈现。隐空间状态变量是 Owl-1 的核心,它不仅仅关注视频本身的像素信息,而是深入到视频背后的世界,通过捕捉和表示这个世界的动态变化,来更准确地模拟世界的演变,从而生成更加连贯和一致的长视频。演化动作变量是驱动世界演变的关键因素。它以文本的形式存在,描述了世界在不同时刻之间的动态变化过程。通过预测和利用这些演化动作变量,Owl-1 能够丰富生成视频的内容多样性,并确保视频的一致性和连贯性。Owl-1 的这三个组成部分共同构成了一个闭环的演化系统。这三个部分相互作用、相互影响,共同推动着世界的不断演变和视频的生成。Owl-1 充分利用了预训练的多模态大模型(LMM)和视频扩散模型(VDM)。LMM 是通用世界模型的核心组成部分,它直接建模了状态 - 观测 - 动作三元组的演化过程。而视频扩散模型则负责将隐空间状态变量解码成短视频片段,即显式观测变量,然后输入 LMM 进行后续推理。通过这两个模型的协同工作,Owl-1 实现了闭环通用世界模型的建模。Owl-1 采用了多阶段的训练过程。首先是对齐预训练阶段,通过大规模的短视频数据来训练多模态大模型输出的隐空间状态变量与视频扩散模型对齐,这一阶段仅训练多模态大模型,能够为后续的训练过程提供一个良好的初始化。接着是生成式预训练阶段,这一阶段主要强化视频扩散模型根据隐空间状态变量生成显式视频观测的能力,因此本文联合训练多模态大模型和视频扩散模型。最后是世界模型训练阶段,因为尚没有能体现世界模型概念的视频数据集,本文采用了 Vript 和 ActivityNet 两个密集视频字幕数据集,将隐空间状态变量、显式观测变量和演化动作变量整合在一起,形成一个完整的通用世界模型。此处展示了 Owl-1 生成不同时长视频的效果,包括 2 秒,8 秒和 24 秒的视频长度,其中 2 秒的生成视频使用了 VBench 的图文提示词,8 秒和 24 秒的视频使用了 WebVid 或者 Vript 数据集的图文提示词。基于给定的初始帧和文字描述,Owl-1 能生成具有较大的姿态和场景变化的视频,同时生成的视频能够反映真实世界中物体和场景的变化规律。这说明 Owl-1 能够很好地由隐空间状态变量解码得到显式的视频观测。 对于同场景多段短视频生成(~8 秒),Owl-1 能够实现视频之间的无缝衔接,且生成的视频具有较高的一致性。这验证了隐空间状态变量保持视频内容的一致性的能力。 对于跨场景多段长视频生成(~24 秒),Owl-1 在场景转换、运动捕捉和细节呈现方面表现出优越的性能,其生成的视频不仅连贯流畅,而且细节丰富,在视频内容发展方面展现出一定的逻辑性。这验证了演化动作变量对于视频内容发展的重要推动作用,初步体现出基于世界模型的视频生成范式的优势。本文在 VBench-I2V 和 VBench-Long 两个基准上分别测试了 Owl-1 生成短视频和长视频的能力。 上表展示了 Owl-1 在 VBench-I2V 上的实验结果,该结果表明 Owl-1 在大部分指标上与其他模型的能力相当,但在动态程度和美学分数上仍旧有所欠缺,这可能和用于训练的视频数据的动态程度和美学分数相关。上表展示了 Owl-1 在 VBench-Long 上的实验结果。Owl-1 与开源的视频生成方法取得了相当的性能,其中在一致性相关的指标上取得了最佳的性能。这说明了 Owl-1 在保持长视频的时序一致性方面超过了现有的方法。快手 “可灵大模型” 团队始终专注于视频生成技术的前沿探索与持续创新。通过对模型架构的优化、数据质量的提升以及算法范式的突破,团队致力于推动视频生成技术的持续进步。展望未来,随着这些技术的不断完善与成熟,视频生成将变得更加高效与高质量,为用户带来更丰富、更多样化的创意表达与使用体验。[1] Tsai-Shien Chen, Aliaksandr Siarohin,et al. Panda-70m: Captioning 70m videos with multiple cross-modality teachers. In CVPR,2024.[2] Brandon Castellano. Pyscenedetect. URL https://github.com/Breakthrough/ PySceneDetect/.[3] Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report [J]. arXiv preprint arXiv:2303.08774, 2023.[4] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning, 2023.[5] Zheng Zangwei, Peng Xiangyu, Li Shenggui, Liu Hongxing, Zhou Yukun, Li Tianyi, Peng Xiangyu, Zheng Zangwei, Shen Chenhui, Young Tom, Wang Junjie, and Yu Chenfeng. Opensora, 2024. URL https://github.com/hpcaitech/Open-Sora.