Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

智谱大模型团队自研打造。


自从快手可灵 AI 火爆海内外,国内视频生成也如同 2023 年的文本大模型一样,越来越卷了。

刚刚,又一视频生成大模型产品宣布正式上线:智谱 AI 正式发布「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。
即日起,清影上线清言 App,所有用户都可以全方位体验对话、图片、视频、代码和 Agent 生成功能。除了覆盖智谱清言的网页端和 App,你也可以在「AI 动态照片小程序」上进行操作,快速为手机里的照片实现动态效果。
图片
智谱「清影」生成的视频时长有 6 秒,清晰度达到 1440×960,所有用户均可以免费使用。
图片
  • PC 端访问链接:https://chatglm.cn/
  • 移动端访问链接:https://chatglm.cn/download?fr=web_home

智谱 AI 表示,随着技术的不断发展,「清影」的生成能力很快将可以用于短视频制作,广告生成甚至电影剪辑等工作中。

在生成式 AI 视频模型的研发中,Scaling Law 继续在算法和数据两方面发挥作用。「我们积极在模型层面探索更高效的 scaling 方式。」在智谱 Open Day 上,智谱 AI CEO 张鹏表示:「随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强有力作用。」

图片

拿捏各种风格

从目前的一些 Demo,以及简单试用的情况看来,智谱 AI 的「清影」具有如下特点:

  • 在风景、动物、科幻、人文历史等类型的视频内容上生成的表现较好;
  • 擅长生成的视频风格包括卡通风格、真实摄影风格、二次元动漫风格等;
  • 实体类型呈现效果上看,动物 > 植物 > 物品 > 建筑 > 人物。

它既可以文字生成视频,也可以完成图生视频,生成的风格覆盖奇幻动画风格。

文生视频

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风。

图片

提示词:一个法师正在海浪中施展法术,宝石将海水都聚集过来,打开了一道魔法传送门。

图片

提示词:蘑菇变成小熊。

图片

到真实景物:

提示词:在一片森林中,人视,参天大树遮蔽着太阳,树叶的缝隙中洒下一些阳光,丁达尔效应。

图片

提示词:一只水豚鼠像人一样站立着,手里拿着冰激凌,开心得吃起来。

图片

图生视频

除了文本生成视频,也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。同时,基于清影的「老照片动起来」小程序也会同步上线,只需一步上传老照片,AI 就能让凝练在旧时光中的照片灵动起来。

提示词:一条自由移动的七彩鱼。

图片

提示词:图中男子站起来,风吹着他的头发。

图片

提示词:小黄鸭玩具漂浮在游泳池的水面,特写。

图片

再到现代艺术:

提示词:摄像机围绕着一大堆老式电视旋转,这些电视播放着不同的节目 ——20 世纪 50 年代的科幻电影、恐怖电影、新闻、静态、70 年代的情景喜剧等,背景设在纽约博物馆的一个大型画廊里。

图片

提示词:掏出一个苹果手机拍照。

图片

无提示词。

图片

你常用的表情包,智谱 AI 能把它延长成「连续剧」。

提示词:师徒四人伸出手互相击掌,脸上是困惑的表情。提示词:小猫张大了嘴,脸上是困惑表情,很多问号。 
可以看出,清影各类风格都可以拿捏,还有更多的玩法等待人们来发掘。只需要在智谱清言 PC/APP 上,点击「清影智能体」功能,就可以让你的每一个创意在瞬间化为现实。

全自研技术

All in 大模型的智谱 AI,很早就开始部署多模态生成式 AI 模型。从 2021 年开始,智谱 AI 先后发布了 CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)等多项研究。

据介绍,「清影」依托于智谱 AI 大模型团队自研打造的新一代视频生成大模型 CogVideoX。

去年 11 月,其团队基于文生图模型 CogView2 打造出了文本到视频生成模型 CogVideo,并随后将其开源。

图片

CogVideo 拥有 94 亿参数,它通过 CogView2 生成一系列初始帧,基于双向注意力模型对图像进行插帧的方法实现视频生成。此外,CogVideo 根据文本描述生成 3D 环境,可直接利用预训练模型,避免了昂贵的训练,它也支持中文的 Prompt 输入。

本次清影底座的视频生成模型是 CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计,它也是一个 DiT 架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。

OpenAI 的 Sora 横空出世,让 AI 在视频生成方面取得了显著进展,但大多数模型在生成具有连贯性和逻辑一致性的视频内容方面仍然存在困难。 

为了解决这些问题,智谱 AI 自研了一个高效的三维变分自编码器结构(3D VAE),可以将原视频空间极致压缩到 2%,使得模型训练成本大幅下降,训练难度也大大降低。

模型结构采用因果三维卷积(Causal 3D convolution)为主要模型组件,并将自编码器中常用的注意力模块移除,使得模型具备不同分辨率迁移使用的能力。

同时,在时间维度上因果卷积使得模型视频编解码具备从前向后的序列独立性, 这有助于通过微调将模型扩展到更高帧率和更长时间的场景。 

除此以外,视频生成还面临这样一个问题,即视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱 AI 自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,进而构建海量的高质量视频文本对,使得训练出的模型指令遵循度高。
 
最后值得一提的是,智谱 AI 自研了一个将文本、时间、空间融合起来的 transformer 架构,该架构没有采用传统 cross attention 模块,而是在输入阶段就将文本嵌入和视频嵌入连接起来,以便更充分地进行两种模态的交互。

然而文本和视频特征空间存在很大差异,智谱 AI 通过 expert adaptive layernorm 对两者分别进行处理,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

智谱 AI 表示,通过优化技术,智谱 AI 生成式视频模型的推理速度提升了 6 倍。目前生成 6s 视频,模型花费的理论时间是 30 秒钟。

如今随着「清影」的上线,视频生成赛道又出现了智谱 AI 这位重磅玩家。

除了人人都能尝试的应用之外,清影 API 也同步上线大模型开放平台 bigmodel.cn,企业和开发者可以通过调用 API 的方式,体验和使用文生视频以及图生视频的模型能力。
 
随着各家公司 AI 视频生成功能的不断上线,今年的生成式 AI 竞赛已经进入白热化阶段。对于大多数用户来说,选择也更多了:现在,无论是完全没有视频制作基础的人,还是专业的内容创作者,都能借助大模型能力实现视频创作。
产业智谱 AI视频生成
相关数据
变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

因果卷积技术

因果卷积首次是在 WaveNet(van den Oord et al., 2016)论文中提出,从直观上来说,它类似于将卷积运算「劈」去一半,令其只能对过去时间步的输入进行运算。对于一维卷积来说,因果卷积可以简单将一般卷积的输出移动几个时间步而实现。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~