以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。 因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。 我们也欢迎读者投稿亲自实践的创新型用例。
最近,AI 圈刮起一股「让照片开口唱歌」的风潮。
例如,让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。
就在昨天,又有一家名为 Hedra 的公司前来踢馆,推出了基础模型 —— Character-1 。
关键是,人人免费可用。
网友们已经玩疯了。
让女版马斯克唱安妮・海瑟薇写给狗仔队的 Rap:
让垃圾桶、土豆人开口说话:
也有网友开始制作动画片:
AI 电影制作人 @Uncanny_Harry 则用它制作了卡通角色 Dave,送上一份迟到的父亲节礼物,并称「这是我所见过的 AI 生成视频中最接近真实表演的作品」。
据他本人介绍,他先用 Midjourney 生成一张图片,然后使用 ElevenLabs 的声音转换技术,以及 Hedra,最终创造了 Dave 这一角色。
由于效果相当惊艳,不少网友直呼:爱惨它了,口型同步令人惊叹。
-1-
傻瓜级玩法
据官方介绍,与其他竞品相比,Hedra 主要有三大优势:
免费体验,不过公测期间每条视频最长不超过30秒;
生成速度快,每分钟可生成 90 秒内容,前提是他们 H100 供应充足;
角色表情丰富,能够流畅地进行对话、歌唱、说唱。
其玩法也很简单。用户只需上传一张图片,再生成一段音频,就能让它开口说话或唱歌。
Hedra 链接:https://www.hedra.com/
打开上述链接,使用谷歌邮箱等注册登录。
进入操作界面后,我们生成或上传一段音频。
值得一提的是,目前该应用主要支持中文和英文,而且中文效果会更好。
我们上传一段搞笑段子音频。
接着就是上传或者生成一张图片。官方还贴心地给出提示词指南。
为了生成效果最佳,提示词中尽量包括风格、角色特征、相机视角、背景场景以及光线效果等内容。
例如,90s sitcom character,shoulders-up,in living room,soft lighting(90 年代情景喜剧角色,肩膀以上,客厅中,柔和光线)
Anime woman,2d,close-up on face,forest at night,cinematic lighting(动漫女性,2D 风格,面部特写,夜晚森林背景,电影级照明)
Woman, cyberpunk, matte blackarmor, dirty face, close-up, citynight, no people(女性,赛博朋克风格,哑光黑色盔甲,脏污的脸庞,特写镜头,城市夜景,无人)
我们图省事,只输入:a beautiful girl,虽然提示词简单,但生成效果还不错。
最后点击「Generate video」,稍等片刻即可生成一段视频。效果如下:
我们还让奥特曼说了一段脱口秀:
妖娆的「马斯克」唱英文歌:
-2-
挑战阿里 EMO
实际上,让照片开口说话、唱歌早不是什么新鲜事,去年爆火的类似产品就有 D-ID、Heygen ,还有两个月前上线的阿里 EMO。
打开通义千问 APP,在顶端的「频道」栏目中,找到「全民舞台 - 玩法升级」。
如果想让照片跳舞,就选择「全民舞王」,若是想让其唱歌,则选择「全民唱演」。
「全面唱演」可以让照片生成老师语录、爆款热歌、网络热梗以及表情包等。
我们从众多模板中选择一款,然后上传图片即可。
我们看一下效果:
明明模仿的是皇后娘娘痛哭流涕的片段,但这生成的人物笑靥如花是怎么回事。
两相比较,Hedra 的表现似乎更胜一筹。
首先,Hedra 给足了用户自由。用户既可用它生成音频和图片,也能够上传现有的音频和图片,而阿里的 EMO 目前无法自定义音频,而且有时还无法上传图片,只能使用系统给定的模板。
其次,Hedra 生成速度极快,不到一分钟即可生成一段 30 秒的视频,而阿里的 EMO 生成一段 9 秒视频需要耗费 12 分钟。
最后,从画面上来看,Hedra 的口型基本能对上,还能根据语调生成对应的表情,就是脸部有时会变形。
以后我们会通过新专栏带来更多 AIGC 案例演示,也欢迎大家进群交流。