Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

70万人争先体验!视频生成新王者「可灵AI」又双叒升级了

难不成,AI 生成短剧时代真的要来了?

最近,各路视频生成 AI 放出的 Demo 让人眼花缭乱。从玩梗图、拼长度再到讲究真实物理逻辑,层出不穷的人工智能创意难分高下,个个都要跟 Sora 试比高。这时候,突然有人偷偷先行一步,搞出了「电影级」的表现:

从真实风格的光影效果:

                            来源:https://x.com/i/status/1806383419661730197

到丰富的想象力,要素齐全,都能搞定:

图片

                             没想到在 AI 眼里,其实是蝙蝠侠能让小丑绷不住。来源:https://x.com/blizaine/status/1806383419661730197

有的人已经在尝试使用这种能力来完成复杂的任务。有视频生成的 AI,音乐生成的 AI,再加上一些 PS 和 AE,我们就可以制作出完整的 MV 了。

图片

                             来源:https://twitter.com/Arata_Fukoe/status/1809840865063629292

你问网友们如何看待这种生成效果,网友要反问一句「好莱坞你怎么看?」

图片

这种 AI 视频生成的效果丝滑且精细,吸引了一大波点赞,仔细翻看,社交网络上由它出品的短视频还有不少。

据网友总结道,新款 AI 的优势主要体现在生成大幅度运动时不容易乱脑补。再比如让它图生视频,一个奔跑的半人马:

图片

                             来源:https://x.com/StevieMac03/status/1809694320649465930

这些视频背后的生成式 AI,是快手旗下的大模型「可灵 AI」(Kling),几个星期前它开始在全球互联网上刷爆,那时就号称「一号难求」。

没错,这不是先放出一些 Demo 搞 PPT 发布,而是上来就直接开放的产品级应用。现在可灵 AI 已经上线了网页版,主打一个简单好用

最新数据,可灵 AI 的申请用户数量已经接近 70 万,成了全网最热的视频生成大模型。

一月数次升级,可灵 AI 的狂飙式进化

今年是生成式 AI 元年,早在 2 月份,OpenAI 的 Sora 就把竞争拉到了视频生成的高度。但率先落地的还数国内科技公司。

自 6 月 6 日正式亮相以来,才一个月的时间,快手可灵 AI 这一首个在海外 AI 圈引起热议的国产大模型就经历了三次迭代更新。

从最开始的文生视频,到两周后支持图生视频、视频续写、多尺寸选择,可灵 AI 表现得越来越出色、全面。视频生成的各种需求,不知不觉中似乎都被解决了。

就在上周末的世界人工智能大会 WAIC 2024 上, 可灵 AI 迎来第三次大的升级,发布了一系列新功能,在视频生成质感、美感、可玩性方面大大提升,带来了创作体验上的又一次跃升。

快手高级副总裁、快手主站业务与社区科学线负责人盖坤介绍了此次可灵 AI 升级的三大亮点功能,包括高画质版、首尾帧控制和相机镜头控制

图片

                             盖坤

首先,可灵 AI 基础模型再度升级,推出了更加清晰的高画质版。升级后,生成视频的画质相较于之前模型有了质的飞跃。

同时得益于更高的训练时空分辨率,可灵 AI 在生成细节、构图、运镜美观性、光影方面都有很大改善。

从如下画质的对比中,我们可以一目了然地看出可灵 AI 之前模型与最新模型之间的区别。

图片

其次,可灵 AI 在图生视频领域增加了实用且呼声很高的「首尾帧控制」功能,让首尾帧呼应的图生视频成为了现实。

通过自定义起始帧和结束帧图像,让用户精确控制不同视频片段之间镜头的丝滑转场,实现一镜到底等效果。从实际生成结果来看,不仅动作自然流畅,画质也能够得到保证。这一功能的引入让用户拥有了更直观、更便捷的编辑体验,满足了个性化的图生视频需求。

比如将如下两图生成一段视频:

图片

效果是这样的:

图片

最后,可灵 AI 增加了运镜控制以及自动大师运镜功能。在视频的世界中,更多镜头的组合可以捕捉更多画面,并增强整体表现力。

可灵 AI 预设了六套经典的镜头控制方式,包括 Roll 旋转运镜、Tilt 垂直摇镜、Pan 水平摇镜、Vertical 垂直运镜、Horizontal 水平运镜和 Zoom 推进 / 拉远,为不同场景提供了丰富的选择。用户还可以调节这些运镜的正数、负数参数,从而控制运动的激烈或平缓程度以及反向运动等。同时,大师级运镜有助于产出电影感十足的吸睛大片。

图片

可以看到,随着这些新功能的加入,可灵 AI 在视频清晰度、美学表现以及内容自定义控制方面有了肉眼可见的改进。

不仅如此,正式与用户见面的可灵 AI 网页版集成了文生图、文生视频以及不久后将支持的视频编辑能力,成为发布即可用的一站式视觉内容创作平台。

其中新增的「首尾帧控制」和「运镜控制」功能目前在网页端提供,想要体验的小伙伴可以速速去申请了!

图片

可灵 AI 网页版地址:klingai.kuaishou.com

用「诚意满满」来形容可灵 AI 此次的升级不为过,背后当然离不开快手在视频生成能力和技术上的持续创新突破。

「电影级」AI 生成,背后全是技术

相较于已经非常成熟的图像生成视频生成任务更复杂,在实际应用中要面临着真实性、动作连贯性、画面流畅性、细节精度、场景、角色和光影一致性、物理准确性以及时长限制等诸多挑战。

这些挑战应对得好不好,将直接决定了模型的实用性和易用性。显然,再度升级的可灵 AI 在这些方面有了脱胎换骨的变化。总结起来,可灵 AI 拥有七大能力亮点

快手视觉生成与互动中心负责人万鹏飞对这些能力一一展开了剖析,这些构筑起可灵 AI 在视频画质、图生视频、运动生成、生成时长、物理规律、指令响应、视频可控性等方面的核心竞争力,并造就了如今全能的可灵 AI。同时,万鹏飞还对未来发展做出了展望,他表示,视频生成效果的提升速度非常快,正在逐步接近图形渲染和相机拍摄,将会对泛视频行业带来新的机遇。

图片

                             万鹏飞

其实我们已经见识过了可灵 AI 的能力,前文展示的高画质版、首尾帧控制和相机镜头控制新功能正是可灵 AI 在电影级高清画面生成、领先图生视频效果和优秀视频生成可控性三大能力上的进一步演化。

其中电影级的高清画面生成能力能够高保真、生动地呈现壮阔的自然风光、人或动物的动作和表情等宏大或细微的场景,大片感十足。

图片

领先的图生视频能力可以让静态图像动起来,转换为生动的 5 秒短视频。同时搭配不同的文本输入,让图生视频更有创意且「随心所欲」。

比如将小狗游泳的图像转换为视频:

图片

效果是这样的:

图片

优秀的视频生成可控性让更加精细的视频创作掌控在用户手中。除了此次的相机镜头控制之外,可灵 AI 未来还将在语音面部匹配、人物 ID 保持、通过简单笔画提示控制画面和布局的演进等更多方面实现可控调整。目前模型的训练已经完成,这些功能很快就会上线。

图片

与此同时,可灵 AI 在运动生成、生成时长、物理规律、指令响应等其他四大能力上也进一步升级。

其一可灵 AI 具有大幅度且合理的运动生成能力。通过建模复杂的时空运动,可灵 AI 可以生成较大幅度的运动,并符合运动规律。

此次得益于更充分的模型训练,可灵 AI 生成的整体运动效果更加灵动,支持更大动作范围的同时合理性也没有削弱。如下小猫的转身、走路姿势等都刻画地非常自然合理,符合物理事实。

图片

其二是分钟级的长视频生成能力。现在,分钟级时长已成为评价一个视频生成模型的重要指标,这要求更有效的多镜头处理、更长的故事讲述以及更连贯一致的运动扩展能力。

目前,可灵 AI 能够生成数分钟的 1080p、30fps 视频。同时开放了遵循用户指令的视频续写功能,单次续写让视频运动延时 4 到 5 秒,还支持连续多次续写,最长可以生成 3 分钟的视频,并且续写时能够指定故事后续发展方向,易用性拉满。

此次升级后,可灵 AI 在算法和工程层面进行了联合深度优化,使得单次生成的视频长度从 5 秒提升到了 10 秒,在对用户开放使用的产品中实现最长时长,可以呈现更加完整的故事线,为用户提供了更广阔的创作空间。

图片

其三可灵 AI 能够模拟复杂的物理世界特性。自 Sora 以来,各家视频生成模型都非常注重生成符合物理规律的视频,这决定了模型能力的上限。

可灵 AI 在发布之初就能够准确地建模和模拟现实世界的属性,让生成的视频接近真实,比如给小猫洗澡。

图片

现在,在更充分模型训练的加持下,可灵 AI 对交互式物理规律的建模和模拟能力又上了一个台阶。

其四可灵 AI 的概念组合和指令响应能力非常强。在技术实现上,通过对文本到视频跨模态语义的深刻理解,可灵 AI 能够将用户丰富的想象力轻松转换为具体的视频画面,放飞脑洞,比如咖啡杯火山。

图片

升级后的可灵 AI 接受了效果更优的文本数据和编码方案,自然而然对用户提示词的响应能力得到增强,视觉渲染效果更好了。

图片

所有这些能力又源于可灵 AI 在视频生成技术路线(采用 DiT 架构)、模型设计(如隐空间编解码、时序信息建模、文本扩展及编码)、数据保障(如多维度标签体系、视频描述模型)、计算效率(如分布式训练集群、分阶段训练策略)、能力扩展(如视频时序延展、多模态输入可控)等方面的技术积累和独到创新。

可以说,如今的可灵 AI 在技术层面做到了先进且靠谱,怪不得技术一落地就受到了人们的追捧。

生成式 AI 时代,快手有备而来

过去一年多的时间里,整个大模型领域可以说是非常的卷。去年都在谈基座模型的研发,今年大家又都在讨论应用。最近几天 WAIC 大会开幕,我们又目睹了一波「模型派」和「应用派」之间的争论。

在这波浪潮中,快手又是怎么做的?

首先,它玩的是体系。从底层的 IDC 算力中心到网络架构、AI 平台,到中层的基础核心大模型,再到应用层的各类应用探索,快手实现了全套自行研发。在谈到该体系时,快手副总裁大模型团队负责人张迪认为,坚定投入自主研发长期来说会带来「技术雪球」效应以及巨大的成本优势。快手一个非常大的优势就是在上层拥有大量的 AI 应用场景,这将给大模型带来非常多的落地机会。

图片

                              张迪

整体框架是这样:

图片

其次,快手坚持走基础模型技术研究和商业应用落地并举的战略。基础模型决定了 AI 能力的上限,研究投入的量变可以引发质变;另一方面,商业化应用能够滚起技术的雪球,把新技术阶段性投入应用,不断收获反馈,才能逐渐形成良性循环。

去年开始,快手提出了「快意」大模型(KwaiYi),很快从早期的 13B 参数量发展到了 175B,并推出了多模态版本。在多个版本的迭代后,快意大模型已经在快手内部的素材创作、AI 互动、内容生产等场景中开始发挥作用,在今年 6 月,基于快意的 AIGC 营销素材单日消耗超过了 2000 万。

有了基础模型,在更多的场景上,快手逐渐发展出了自己的差异化能力。

具体来说,在文生图上,快手的「可图」已成为行业内顶尖的模型之一,拥有强大的语义理解和指令跟随能力。得益于在文本表征方面的创新,以及图像数据对齐的大量工作,可图可以画出摄像级的画面质感,经过强化学习的训练,审美也和人类的普遍标准实现了对齐。

而在视频的生成上,「可灵 AI」燃起了全球视频生成领域的新一轮竞争。它可以进行文生视频、图生视频,又具有丰富的图像编辑能力,在视频生成的可控性、质感、美感、运动合理度方面保持业内优秀。快手的工程师们正在持续进行工程算法的优化,力图不断降低视频生成 AI 的门槛。

说到打下门槛,新技术的优化是当前生成式 AI 面临的重要挑战之一。作拥国民级短视频应用,快手的优势在于拥有大量 AI 应用场景,这就给落地实践带来了场景和机会。

在技术落地上,快手实现了一系列里程碑:

  • 快手在 APP 评论区内测的对话模型应用「AI 小快」,可以理解视频中的内容并与你互动,至今已经累积了超过 1000 万的粉丝量。

  • 在电商的直播间里,利用文生图 AI「可图」的能力,老铁们也可以用自己的生活照快速试衣,甚至看到动态展示。

  • 视频生成模型「可灵 AI」自发布以来获得了用户的广泛认可,已经累计生成了 700 万条视频,开放了一站式内容创作平台。

  • 从内容的生产、理解到推荐等不同层面,从个人再到电商,快手的生成式 AI 能力已经做到了对于主体业务的全覆盖,持续推进着快手生态的不断发展。

最后还有新的尝试。在 WAIC 上,快手预告说首部 AIGC 短剧《山海奇镜之劈波斩浪》将在本月正式发布。

该剧由可灵 AI 提供深度技术支持,以赛博风格来复现山海经里的上古神话世界。从预告片来看,山脉到海洋、森林到天际等场景都呈现出了震撼的视觉效果。在以往,如此效果可能需要专业的特效团队,现在,视觉生成 AI 就能带来震撼的视觉体验了。

没错,半年前我们还在畅想未来,现在 AI 真的开始拍电影了。

当前大模型的浪潮中,最能证明技术能力的莫过于大规模落地。

而快手全方位的实践让我们再次确认:AI 的生产力已在不知不觉间,改变着我们的生活。

入门快手可灵 AI
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

图生成技术

根据给定信息信息生成图表。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

Zoom机构
推荐文章
暂无评论
暂无评论~