Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

我们用17个Prompt,实测了一把字节的两大视频生成模型。


字节憋了个大招。

9 月 24 日,字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展,一口气发布了两款视频生成大模型,正式宣告进军 AI 视频生成

这两款模型,一个名为 PixelDance(以下简称 P 模型),一个名为 Seaweed(以下简称 S 模型),不仅在审美、动幅上提升了一个 level,还破解了多主体互动和一致性难题。

话不多说,先整几个视频让大家感受下:

一位年轻女生微簇眉头,生气地戴上一副墨镜,这时,男主角入画,紧紧抱住了她。

这段 10 秒的镜头中,人物面部表情变化自然,没有任何虚化崩坏。再如,一只金毛小狗在草地上追逐泡泡。                            (AI 自动配乐) 

以及一个 3D 风格的可爱小女孩正在跳舞。                          (AI 自动配乐) 

看来,字节这次是把攒了许久的绝活儿,一股脑全倒出来了。

目前,新款豆包视频生成模型正在即梦 AI 内测版小范围测试,未来将逐步开放给所有用户。

我们也在第一时间拿到内测资格,接下来,就奉上新鲜出炉的一手实测。

解锁多动作、多主体

目前,市面上大部分视频生成模型,只能完成简单指令或者单一动作。而这次,豆包视频生成模型一顿升级,不仅可以遵循复杂 Prompt,还能捕捉多动作序列和主体互动。

例如,梵高站在自己的画作前,捂嘴大笑起来,脸上的褶子都清晰可见;随即又秒变严肃,手缓缓落下,捋捋自己的小胡子。

整套动作行云流水,表情自然逼真。再比如,我们输入 Prompt:两名宇航员行走在夜晚繁华的街道上。
两名身穿宇航服的航天员,一前一后漫步在繁华街道上,身后人来人往,两侧的建筑亮起了绚丽的灯光和店招。

众所周知,AI 最容易犯的毛病之一,就是左右腿不分,或者惊现四条腿。

而在豆包视频模型中,二人走路姿势正常,几乎与真人无异,没有模糊、扭曲,也没有出现各种诡异画面。

我们还输入了一段形容词贼多的 Prompt:一只蜗牛在雨后的森林地面上缓缓爬行,它身后留下一条闪闪发光的粘液轨迹。蜗牛的触角谨慎地移动着,它的壳的每一段都有精细的纹理。一个摄像机跟踪着蜗牛的缓慢旅程。镜头非常接近,以至于蜗牛壳和身体上的水滴清晰可见,地面的细节也展现得非常清楚。

图片

豆包模型生成的视频中,蜗牛柔软的躯体缓慢向后蠕动,触角也随之摇晃。硬硬的壳上有着精细的纹理,上面还沾着细小的水珠。

由于是特写镜头,森林的背景自然虚化,而雨后地面的水洼则清晰可见。

Prompt:许多水母在水下游动,它们的身体透明,在深海中发着光。

图片

画面中出现了大大小小的透明水母,它们轻轻张开伞盖,再紧紧收缩,触手也在水中自由摆动。

Prompt:写实,一个小女孩吹生日蜡烛,然后笑了。

图片

镜头中,一个头戴寿星帽的小女孩,张着嘴巴吹蜡烛,脸上露出微笑。同时,身后的亲友团,或鼓掌、或拍照。该视频中的人物不仅多元,动幅也很大。

动作灵活,运镜酷炫

这次豆包视频模型还有一大特点 —— 镜头多样。

变焦、环绕、平摇、缩放、目标跟随等超多镜头语言,它都能灵活控制视角,而且视频细节更丰满,表情更丰富。

Prompt:一个推进镜头,沿着树木成行的郊区住宅街道拍摄,白天,天空晴朗湛蓝,色彩饱和,对比度高。

图片

随着镜头缓慢推进,干净的街道、树木掩映的成排小别墅映入眼帘,画面中还展示了优秀的光影效果。

Prompt: 北极光在北极天空中舞动,星星闪烁,白雪覆盖的景观的延时摄影。

图片

天空舞动的极光,在雪地上映射出相应的颜色。豆包模型生成的这段延时摄影,简直和纪录片拍摄的如出一辙。

我们还试了下图生视频,上传图片后,输入 Prompt:金鱼游动,水中冒着气泡。

别看这个 Prompt 简单, 豆包模型的「脑回路」却复杂得很。不仅完美遵循文字指令,还学会了摇镜头。
画面一开始,水缸中的金鱼开始游动,并伴随着大量气泡。随后,镜头一拉,现出女孩全身,她在水中缓缓转过身,发丝和宽松的衣摆在水中的漂浮感,以及头顶露出水面的状态,豆包模型均捕捉到位。

此外,豆包视频模型还采用全新设计的扩散模型训练方法,成功攻克了多镜头切换时难以保持一致性的困扰,可 10 秒讲述一个起承转合的故事。

比如,用它生成一段睡美人的故事。
睡美人躺在床上陷入沉睡,窗外的小鸟叽叽喳喳也吵不醒她,这时一位王子俯下身吻了睡美人,试图唤醒她。

在这个 prompt 中,涉及多个镜头的切换,但主体、风格、氛围和逻辑仍能保持一致性。

审美高级,风格多变

豆包新模型采用深度优化的 Transformer 结构,大幅提升了视频生成的泛化能力,黑白、3D 动画、2D 动画、国画、厚涂等多种风格,它通通支持。

比如,一只戴着墨镜颇具喜感的北极熊,蹬着四只爪子在海里畅游,水面上泛起微波,甚至还折射出了北极熊的影子。

图片

                     (Prompt: 戴着墨镜的北极熊在海里游泳。)

再来个动画风格的。

身穿灰色时尚卫衣的猫咪,迈着「六亲不认」的步伐,走在星光闪耀的 T 台上。

其中,猫咪眨巴着眼睛,毛发和衣服褶皱处理得也相当逼真,胸前的两根衣带也能随着步伐而摆动。
                    (Prompt:一只拟人小猫正在 T 台上走秀。)

呆萌二哈一身潮范儿,头戴棒球帽,手端咖啡杯,仰起头,张开嘴,就将其一饮而尽,随后,P 模型发挥想象力,让二哈顺手将咖啡杯放置在两侧的椅子上,整套动作行云流水,很是流畅自然。
                   (Prompt:二哈正在喝咖啡。)

阳光明媚,树影斑驳,两只拟人化的企鹅,戴着 Fashion 的墨镜,舒服地坐在沙滩椅上晒着日光浴,时不时还唠上两句磕儿。

图片

                    (Prompt:动画风格,两只拟人化的企鹅,戴着墨镜,坐在沙滩椅上晒太阳。)

两只卡哇伊的毛绒小怪物,摇头晃脑地跳着舞,画风有种迪士尼的感觉。

豆包视频模型对于细节的把握也是相当到位,比如小怪物晃动身体时,头上的毛发也会随之起舞等。

图片

                        (Prompt:两只毛茸茸的微型可爱怪物,正在跳舞,3D 渲染,Octane,柔和的照明,梦幻般的散景效果,电影感。)

小猫晃动着爪子,和小熊猫玩亲亲,细节层次丰富,光影随着主体运动而变化,大幅提升画面视觉审美。

图片

                          (Prompt:小猫和小熊猫开心地跳着,然后拥抱在一起。)

不仅如此,我们还可以拿它制作广告大片。

例如,先通过即梦的文生图功能,搞出一张香水的商品图。

图片

然后再通过图生视频功能,输入 Prompt:蓝色的烟雾缓缓升起。

效果如下:

图片

大家觉得豆包视频生成模型水平咋样呢?来评论区聊聊吧。
产业SeaweedPixelDance火山引擎字节跳动
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

暂无评论
暂无评论~