日前,旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架,用户只需输入一张静态的肖像图片,以及一段视频(演讲、表情包、rap)文件,即可生成一段表情丰富、动作一致的 AI 人像视频。MegActor 所生成的视频长度,取决于给定的驱动视频的长度。与阿里 EMO、微软 VASA 等最新涌现的 AI 视频模型不同,旷视 MegActor 将采用开源的方式,提供给开发者社区使用。MegActor 能够呈现出丝毫毕现的效果,面部细节更加丰富自然,画质更出色。 为了进一步展示其泛化性,MegActor 甚至可以让 VASA 里面的人物肖像和它们的视频彼此组合生成,得到表情生动的视频生成结果。 即使是对比阿里 EMO 的官方 Case,MegActor 也能生成近似的结果。
论文:https://arxiv.org/abs/2405.20851 代码地址:https://github.com/megvii-research/megactor
项目地址:https://megactor.github.io/
使用了一个 ReferenceNet 对参考图像进行特征提取,负责得到参考图像的外观和背景等信息; 使用了一个 PoseGuider,对输入的视频进行运动和表情信息提取,负责将运动和表情信息迁移到参考图像上。
可以根据输入的视频生成任意持续时间的模仿视频,同时保证角色身份的一致性 支持各种驱动视频,如演讲、唱歌、表情包等 支持不同的画风(照片、传统绘画、漫画、AI 数字人等)