Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

从威尔・史密斯鬼畜吃面到「Her」,这些幕后技术正在推动AI视频时代的到来

还记得「威尔・史密斯吃意大利面」的 AI 鬼畜视频吗?在这些视频里,威尔・史密斯的面部表情、动作都非常夸张,还充满了扭曲、变形。

图片
一年多以前,大部分 AI 视频生成模型确实只能达到这样的水平。但如今,情况完全不同了:AI 不仅能让表情、动作和光影都非常自然,还能运用丰富的镜头语言,生成的视频具有电影级别的质感。
图片
图片
这种让国外网友都大呼「有用」的生成效果来自字节跳动前段时间发布的豆包・视频生成模型。在开启内测后,机器之心也进行过测试,效果非常惊艳(参见《终于拿到内测!豆包 - PixelDance 真是字节视频生成大杀器》)。
图片

回想今年年初 Sora 问世之际,国内 AI 社区还弥漫着一种悲观的情绪,觉得 AI 视频生成门槛颇高,国内企业想弯道超车难度不小。然而令人意外的是,Sora 高开低走,迟迟未向公众开放。反倒是国产模型不断带来惊喜,甚至有演变成生产力工具的趋势。

那么,面对重重困难,国内的视频生成模型为什么会发展得如此之快?豆包・视频生成模型的背后有哪些技术底座在提供支撑?生成式 AI 浪潮带来的视频数据激增、编解码技术挑战如何解决?在刚刚召开的 2024 火山引擎视频云技术大会上,我们找到了一些答案。

算力、编解码、框架:AI 视频时代的三大挑战

如果你在小红书上围观过「即梦 AI 短片挑战赛」,那你一定会被网友们的创意所打动。此前,这些创意因视频制作门槛过高而处于休眠状态。如今,随着生成式 AI 的发展,创建高质量的视频变得更加简单,生成的视频数量随之大幅增加。这带来了新的商业机会和应用场景。
图片
但这种数据量的增长也伴随着一些问题,其中最突出的是对计算资源的巨大需求。视频数据量增加,意味着需要更多的算力来处理这些数据。与此同时,训练、推理的计算成本也急剧上升。例如,Sora 训练和推理所需的算力比 GPT-4 还要高很多,训练算力需求是 GPT-4 的 4.5 倍,推理需求则接近 400 倍。这表明,随着视频生成技术的发展,算力层需要经历一场变革。

此外,视频处理的核心技术 —— 编解码也面临着挑战。视频编码的目的是将视频数据压缩成更小的文件,便于存储和传输;而解码则是将压缩的视频还原成可以播放的格式。这两者的效率直接影响视频的质量、存储空间的需求、网络传输的速度以及设备播放视频的流畅度。因此,编解码技术对于视频处理来说至关重要。 

传统的编解码技术是基于固定的算法和规则进行的,比如通过一些特定的压缩算法来减小视频文件的大小。然而,随着 AI 技术的进步,编解码技术也逐渐向智能化方向发展。不过,如何将 AI 与编解码技术深度融合仍然是一个具有挑战性的问题。

再说回视频生成本身。其实,视频的生成和处理涉及大量复杂的步骤,包括预处理、数据分析、压缩、生成等等。在这些过程中,框架层起到了组织和协调各种处理任务的作用。随着生成式 AI 和大模型的兴起,传统的框架已经难以应对庞大而复杂的处理需求。其中,视频数据的预处理尤其棘手,面临成本、质量、协同、性能等多方面挑战。因此,必须构建更强大的框架,以支持大规模的数据处理和复杂的视频任务。 

面对这些难题,火山引擎已经研发出了一系列解决方案。

比如在算力层,他们去年就推出了自研的视频转码专用芯片。经过一年的精心打磨和广泛应用,该芯片已经取得了显著的成效,在抖音的实践中实现了效率的显著提升和成本的大幅下降。具体来说,一台芯片服务器转码能力算力相当于百台 CPU 服务器。在同等视频压缩效率下,它的成本可以节省 95% 以上。在本次大会上,他们还宣布首次正式对外开放测试,招募首批种子用户,共同探索该芯片商业价值的可复制性。
图片
在编解码算法层,他们结合传统压缩技术与深度学习技术,推出了 BVC2 智能混合编解码方案,大幅提升了效率和编码性能。在第六届深度学习图像压缩挑战赛上,该方案在高码率和低码率视频压缩中获得了冠军。
图片
不过,更令人瞩目的创新在框架层。他们用一个围绕 BMF 框架构建的方案有效助力了豆包・视频生成模型的训练,还在本次大会上开源了移动端后处理解决方案 ——BMF-lite

算法之外,豆包・视频生成模型还有个「重要武器」——BMF  

在 OpenAI 的 Sora 走红之后,AI 社区的大部分讨论都围绕它背后的算法展开。但其实除了算法,研究人员还面临着很多困难。这种情况下,一个有效的视频处理框架可以让大模型团队事半功倍。因此,ByteDance Research 负责人李航将「BMF」称为他们训练模型的「重要武器」
图片
熟悉视频处理的开发者可能都知道,BMF 并不是一个新框架,在去年 8 月份的火山引擎视频云技术大会上就已经亮相。

在豆包・视频生成模型的开发过程中,火山引擎基于 BMF 构建了能够预处理海量视频数据的方案来支持模型训练。这个方案帮助大模型团队克服了前面提到的成本、质量、协同、性能等多方面挑战。

首先是成本挑战。我们知道,超大规模视频训练数据集会导致计算和处理成本激增。针对这一问题,他们通过使用云计算中的弹性资源调度模式,根据实际需求的波动情况来分配计算资源。此外, 他们还使用精细化的调度算法,灵活地在不同的任务和场景中分配 CPU、GPU 等异构计算资源。这种「海量潮汐资源精细化混部调度」方法确保了在处理大量视频数据时既能满足计算需求,又能降低运营成本。

其次是质量挑战。在收集、生成大量视频数据时,这些视频的质量可能有很大差异,数据样本有待分类、分段和清洗。此外,这些视频的种类也可能不均衡。这种不均衡会影响后续模型的训练或视频处理效果,因为不同类别的数据样本可能需要不同的处理方式。 

为了解决这些问题,火山引擎采用了多种算法,对视频数据进行多维度分析和筛选,包括分辨率、帧率、噪声、色彩等等。通过实践积累,火山引擎开发了 50 多个「算子」(算法模块),这些算子可以灵活组合,对视频数据进行精细化处理,确保保留下来的都是高质量且类别均衡的视频。这一过程保障了模型在训练时只使用符合标准的视频,从而避免因数据质量差或不均衡而影响整体表现。

接下来是协同挑战。视频预处理涉及多个复杂的环节,每个都需要不同的技术和处理方法,通常需要多个团队协作完成。团队之间的沟通和协作可能会变得复杂,特别是当各个环节紧密依赖时。

但好在,BMF 具有动态模块化的设计,这意味着每个处理任务可以通过不同的模块灵活组合、替换或扩展。团队可以在短时间内将几十个「算子」集成到一起,快速开发出完整的处理链路。这种动态、模块化的架构使得系统的迭代开发效率显著提升,速度比使用传统框架快了数倍。

最后是性能挑战。在视频处理过程中,不同的任务对计算资源的需求不同。常见的计算资源包括 CPU、GPU、ARM 等。这些资源各自具有不同的性能特点和优势,称为异构计算资源。要充分利用这些不同的计算资源,需要灵活的调度和分配,否则会导致某些资源过载,或者一些资源闲置,无法发挥出最大效能。 

BMF 框架的灵活调度能力有利于解决这一问题。具体来说,BMF 能够根据每个算子的计算需求,智能选择最适合的硬件资源,将算子处理流程动态部署在 CPU 等不同的计算单元上。这种灵活的资源分配机制使得系统在运行过程中可以快速进行性能调优,适应不同的负载和任务变化,确保在高效处理任务的同时提升任务吞吐量。通过这种方式,他们有效缓解了由于资源瓶颈带来的计算压力,提升了整体系统的运行效率和稳定性。

在这些创新的支持下,团队短时间内生产了足够多高质量的视频素材,用于模型的训练,有力地支撑了视频生成模型的上线与调优。此外,火山引擎视频云还为该模型生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式解决方案。

在今年的大会上,火山引擎还开源了移动端后处理解决方案 ——BMF-lite。BMF-lite 具备轻量、通用、高效和前沿的显著特点,极大地提升了多媒体处理框架的灵活性和适应性。
图片
首先,在轻量化方面,BMF-lite 采用了不依赖任何第三方组件的设计,推出了轻量化的开源版本,并采用了简洁高效的结构,便于开发者快速集成和部署,适合各种不同的应用场景。

其次,在高效性上,BMF-lite 通过引入算子加速功能,结合 kernel 融合等创新技术,显著提高了视频处理的速度和性能,极大优化了资源利用效率。

此外,BMF-lite 提供了多平台统一接口,无论开发者使用何种平台,都能轻松接入 BMF 框架,实现视频处理的无缝对接。

更重要的是,BMF-lite 还支持端侧大模型的接入,在被称为端侧 AI「元年」的 2024 年,这一功能可以说恰逢其时。

在 AI 视频时代,像 BMF-lite 这样的开源框架能够降低企业的研发成本,对于整个行业的发展都是非常有益的。但这样的框架也需要大量的时间和资源来开发和维护,所以 BMF-lite 的开源显得非常难能可贵。
图片
视频正成为人类的第二语言

其实,除了前面提到的视频生成、编解码,还有很多视频技术正在塑造我们所在的这个 AI 视频时代。这个时代不再是传统意义上的用户被动接受视频内容,而是通过智能化和个性化的手段,让用户能够更主动地参与、创造和定制实时、沉浸的视频体验。

比如, 在这次大会上,火山引擎整合豆包大模型与实时音视频技术,推出了类似「Her」的对话式 AI 实时交互解决方案,让 AI 和用户进行实时对话,其端到端延时低至 1 秒以内。这一方案可广泛应用于智能助手、AI 社交陪伴、儿童学习陪伴、AI 教育、智能客服等众多场景。
正如火山引擎总裁谭待所说,「视频正迅速崛起为人类的第二语言,其丰富的表达手段和效果远超传统文字,为我们提供了更多元、更生动的交流方式。
在大会上,做演讲的并非谭待本人,而是他的数字分身。由于效果极为逼真,有人误以为是视频抠像。这一效果主要由豆包语音合成模型和形象驱动算法提供支持。目前,火山引擎推出的定制数字人服务可1:1高度还原定制者的形象及声音,而且步骤简单,仅需提供一段本人录制的视频及音频,即可交由人工智能进行学习训练并生成出专属数字人,一次录制即可长期反复多次使用。

可以预见的是,随着 AI 加持的视频技术的持续发展,更交互、更沉浸的视频内容将逐渐渗透到更多的生活和工作领域。无论是个人创作、智能助手,还是教育、社交互动,这些技术都将引领一场视频体验的全面升级。而我们,也将见证更多精彩瞬间的到来。
产业BMF-lite火山引擎字节跳动
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
李航人物

李航,毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位。北京大学、南京大学兼职教授。曾任日本NEC公司中央研究所研究员,微软亚洲研究院高级研究员与主任研究员、华为技术有限公司诺亚方舟实验室主任,是《统计学习方法》作者。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

图像压缩技术

图像压缩是数据压缩技术在数字图像上的应用,目的是减少图像数据中的冗余信息,从而用更加高效的格式存储和传输数据。图像压缩可以是有损数据压缩也可以是无损数据压缩。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

数据压缩技术

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。在计算机科学和信息论中,数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~