Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

口型几乎完美、还能卡点,霉霉说地道中文的视频火了,背后AI工具原来是它

这么看来,AI 配音真的可以「以假乱真、真假难辨」。

这两天,美国女歌星霉霉(泰勒・斯威夫特)一则说中文的短视频在各社交平台火了起来。有的播放量已经达到了 600 多万。

在视频里,霉霉操着一口流利、地道的中文,神情自若,几乎没有早期译制片女主角的那种腔调,口型也能对得上。
图片                                                  图源:微博 @会火

还没有看过视频的小伙伴们,我们先来一睹为快。
                            视频作者:johnhuu 教英语

感觉怎么样,是不是很神奇呢?

可以看到,不仅是霉霉,蕾切尔・布罗斯纳安、特朗普、艾玛・沃森、憨豆先生都掌握了一口正宗的中文。此外,小品演员蔡明在吐槽大会上「秀了一段流利的英文」。

作者表示,视频制作中有三个重要的因素:掌握地道的口语翻译、语音克隆和替换嘴型,每个步骤都要做好。不过,他没有说明用到的具体模型是什么。
图片
视频火了之后,更多的人开始了新的尝试,也让我们了解到了视频背后使用到的 AI 生成工具 ——HeyGen。

推特用户 @Gorden_Sun 同样制作了一段霉霉说中文的视频,这次口型完美,卡点和嘴型都对得上。有人评论到,「音色其实也很像了。」

作者表示,视频里面的翻译是 HeyGen 自动完成的,质量可能不太好,他只需要上传视频并选择要翻译的语言就行了。

视频字幕是作者自己加的,HeyGen 没有该功能。此外视频人物在情感还原度方面仍有欠缺。
图片
不过,HeyGen 虽然可以免费试用,但需要等待很长时间。懂技术的小伙伴也可以寻找开源替代方案,比如语音转文字 whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++。

除了中英互换之外,国外还有人尝试将英语翻译成日语,效果同样很不错。他表示,该视频同样是使用 HeyGen 做的。
图片
原始英文视频如下:
转换后日语视频如下:
还有更离谱的是,有人使用 HeyGen 制作了说多达 6 种不同语言的视频。对此有人评价称,「HeyGen 将成为内容创造领域的搅局者。」
图片
那么,这个 HeyGen 是什么来头呢?原来它在两个多月前就生成过一段爆火视频。

HeyGen:做不输 Midjourney 的 AI 视频生成

当时,HeyGen 生成了一个超逼真的数字人,还是创始人 Joshua Xu 亲自上阵。人物的表情、动作、脸部微表情等等,都活灵活现地展现在你眼前。

HeyGen 的这段视频掀起了一阵热潮,但是因为还有一些效果缺陷,大家更加期待改善后的版本。

图片

                            HeyGen 创始人 Joshua Xu 的 AI 生成数字人,眨眼频率过高

HeyGen 背后的公司名叫诗云科技,成立于 2020 年。他们最初致力于做 AI 数字人生成,创始人 Joshua Xu 曾在 Snapchat 担任主要工程师,负责机器学习领域。

Joshua Xu 曾发博客表示,自 2022 年 7 月产品发布以来,历时 178 天,该公司 ARR (annual recurring revenue)已达到 100 万美元。

图片

HeyGen 为用户提供更加便宜、省时的视频制作方法。这打破了传统视频制作中费用高昂、周期长、人员杂乱和设备需求高等问题。

参考链接:https://www.sohu.com/a/711139471_99985415
产业HeyGen
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~