图像生成、视频生成、整合语音合成的人脸动画、生成三维的人物运动以及 LLM 驱动的工具…… 一切都在这篇文章中。
现有动画师就很容易上手使用 可用于生成背景图
生成结果没有多少「新意」 需要动画师协调处理素材和动画
Stable Diffusion(SD,运行在本地计算机上)或这些在线应用:Craiyon Invokeai (使用了 SD) Enfugue (使用了 SD) SkyBox AI—— 能生成适用于 VR 的 360 度场景图
在 Blender 中使用的 ComfyUI 节点 Krita 上的 Stable Diffusion Krita 上的 ComfyUI—— 界面简单易用,对艺术家友好
MidJourney Runway DALL・E 2 Adobe 的 FireFly
参数插值(变形)
图像到图像(I2I)反馈循环
2D 或 3D 变换(基于 I2I 循环)
实验性、运动合成、混合等技术
混合(风格化)—— 混合视频源或 / 和按条件处理(ControlNets)
光流变形(使用视频输入在 I2I 循环上执行)
3D 衍变
全新且不断演变的美学风格,这是这种媒体形式特有的。 在概念上与传统的动画技术有共同点。 最容易定制化、最实用且易于指导。 模块化、分层的方法。
往往会有闪动问题,有时候会显得很混乱。 技术方面要考虑的东西很多,难以平衡考虑,要想成为高手必须经历陡峭的学习曲线。 如果没有性能卓越的本地硬件(英伟达 GPU),就会很不方便。
用于参数插值动画(travel)的小脚本:步骤(https://github.com/vladmandic/sd-extension-steps-animation) 、prompt(https://github.com/Kahsolt/stable-diffusion-webui-prompt-travel )、种子(https://github.com/yownas/seed_travel)。 Deforum—— 能够满足各种动画 SD 需求的最佳工房,整合了上面大多数技术。 Parseq—— 用于 Deforum 的常用视觉参数排序工具。 Deforum timeline helper—— 另一款参数可视化和调度工具。 Deforumation—— 用于实时控制 Deforum 参数的 GUI,支持反应性调整和控制。 TemporalKit—— 采用了 EBsynth 的一些原则,可与 SD 搭配使用实现一致的视频风格化。 SD-CN Animation—— 这多少还是个实验性工具,支持一些混合风格化工作流程,也支持有趣的光流运动合成(这会导致运动抖动)。 TemporalNet——ControlNet 模型可以用在 Deforum 等其它工作流程中,目标是提升时间一致性。Python 笔记本(需要在 Google Colab 或 Jupyter 上运行)。 Stable WarpFusion —— 实验性的代码工具包,目标是执行高级的视频风格化和动画。与 Deforum 有很多一样的功能。
用于 Blender 的 Dream Textures Stabiliy AI 的 Blender 插件 看起来像用于 Blender 的 Openpose 的角色骨架 —— 可在 Blender 之外使用 ControlNet 用于虚幻引擎 5 的 Unreal Diffusion 用于 After Effects 的 After-Diffusion(目前还在开发中) 用于 TouchDesigner 的 A1111 或 ComfyUI API—— 如果你知道如何操作,那么这可用于执行动画等各种任务
Stability AI 的动画 API Kaiber 的 Flipbook 模式 —— 按照描述,基于 Deforum 代码
用于 After Effects 的 Diffusae
图像到视频生成
视频到视频生成
这类技术具有最大的可能性,并且会随时间不断改进。 在专业动画知识方面没有进入门槛。 相比于逐帧的技术,这类技术的结果往往更加平滑,通常也更为一致。 对于「变形」工作流程而言,这可能是比逐帧方法更简单直接的方法。
得到的结果通常显得离奇怪异,一看就是 AI 生成的,而且这种情况比静态图像严重多了。在涉及人的仿真实影像方面尤其明显。 计算成本高。相比于图像 AI,更难以在本地硬件上运行。 存在视频时长短和上下文短等限制(目前而言)。
Stable Video (SVD)—— 来自 StabilityAI 的开源视频扩散模型。目前很多托管式应用和工具都在快速部署实现该模型。 SVD ComfyUI 实现 SVD 时间 ControlNet MotionCtrl—— 经过增强,允许在各种视频模型中控制目标运动和摄像机轨迹。 Emu Video——Meta 的视频生成模型的预览演示。 A1111 webui 的文本转视频插件,可搭配以下模型使用(如果你的硬件足够): VideoCrafter Zeroscope
用于 Blender 的 Pallaidium—— 一个多功能工具包,包含跨图像、视频甚至音频领域的生成功能。 此外,你还能在 Hugging face space 上找到一些免费演示。
Runway 的 Gen2 Kaiber 的 Motion 模式 Pika labs(受限 beta 版)
可以受益于现有图像扩散模型的进展。 可以通过去噪或使用 ControlNet 用视频来进行条件化处理。 处理抽象、流运动效果很好。
难以为人物或不常见的物体产生复杂、连贯一致的运动,反而常出现变形问题。 和视频原生模型一样,计算成本高。相比于图像 AI,更难以在本地硬件上运行。 受限于较短的上下文窗口(目前而言),但也有一些人正在实验解决方案。
用于 AnimateDiff 的 A1111 webui 插件 ComfyUI 中 AnimateDiff 实现 VisionCrafter—— 一个用于 AnimateDiff 实现等项目的 GUI 工具 用于 SD XL:Hotshot-XL 多功能实现:Enfugue
目前好像没有
可用于轻松制作迷因动图。 …… 呃,有喜剧效果?
通常看起来不自然。我还想不出这能有什么实际用途。 过于依赖付费应用提供的闭源人脸动画工具。 即使你使用自己的录像来训练数字化身,得到的结果也过于呆板,动态效果很差。
ElevenLabs—— 有使用次数限制,但次数似乎每个月都会刷新。 A1111 WebUI 的 Wav2Lip 插件 —— 用于生成唇形同步动画的工具。看起来仅限于嘴部区域。
D-ID Heygen Synesthesia
能整合进现有的 3D 动画制作流程中,可减少重复性任务,有望成为动画老手的好帮手。 能很好地处理物理效果和重量。 在未来的视频游戏中实现动态的人物动画?
似乎受限于人类形态的双足式人物。 还需要其它工具辅助。只是 3D 动画制作流程的一个组件。你需要知道接下来该做什么。 训练过程通常基于人类运动数据,这意味着到目前为止这些工具只能实现基于真实物理效果的运动,无法实现风格化或卡通中的运动机制。
Mootion Omni Animation Cascadeur—— 动画制作助理,可以根据最小化的输入创建平滑的、基于物理机制的动画和姿势。可控性高,可能会成为未来一个主力工具。 ComfyUI 中的 MDM、MotionDiffuse 和 ReMoDiffuse 实现。
免费工具的付费套餐会提供更多功能,使用限制也更少。
潜力 —— 最终突破创意工作者面临的任何技术障碍。 可用作创意软件的助理,消除繁琐重复的任务,帮你深度挖掘文档内容。
如果 AI 能帮你创造一切,那么成为创意工作者还有什么意义? 目前,LLM 只能运行在强大的远程计算机上,通常是按 token 数收费或采用订阅制。
Blender Chat Companion——(类似于 Blender Copilot)Blender 中的一个 ChatGPT 实现,专用于处理适当的任务。使用了 ChatGPT API,这需要付费。
Genmo—— 承诺会实现「创意通用智能」,采用了多步过程并且全都可以通过聊天界面控制。 Blender Copilot——(类似于 Blender Chat Companion)Blender 中的一个 ChatGPT 实现,专用于处理适当的任务。使用了 ChatGPT API,这需要付费。