2023/11/17 18:59

哼两句就能变歌曲，还有国宝歌手帮你演绎，音乐 Dall·E 2 时刻来了

机器之能报道

编辑：Sia

一个模型+两个功能=仅从文本提示就能生成引人入胜的音乐和歌声。

你是否有过这样的体验，脑海不时冒出各种旋律，却因对乐器一窍不通，无法将这些创意释放出来？

今天，YouTube 和 Google DeepMind 强强联合推出的新服务能让你的创意和音乐实现无缝转化。

在 Google DeepMind 提供的最复杂的 AI 音乐生成系统 Lyria 帮助下，YouTube 正在测试新的音乐生成功能：

仅用文本提示或者简单哼唱几句，AI 就能立刻生成一段引人入胜的音乐或歌曲。

最先推出的一个服务叫 Dream Track，可自动生成模仿某音乐人声音、风格的 30 秒音乐曲目，甚至包括歌词。

目前有 9 位流行音乐音乐人参与了这项合作，他们是 Alec Benjamin、Charlie Puth、Charli XCX、Demi Lovato、John Legend、Papoose、Sia、T-Pain 和Troye Sivan，以美国和澳洲歌手为主，饶舌说唱歌手相对多一点。

部分合作音乐人：Troye Sivan, Demi Lovato, John Legend （从左到右）

澳洲国宝级歌手 Sia 也在合作之列

Dream Track 用户只需输入提示，比如文字输入「佛罗里达州一个阳光明媚的早晨，R&B」（ R&B ，节奏布鲁斯，一种曲风），再选择美国饶舌歌手 T-Pain ：

马上就能得到一段 30 秒的音乐，里面歌手的声音是 T-Pain ，连歌词都替你生成了（当然，你也可以自己写）

这是音乐人美国歌手 Charlie Puth 风格的作品：

早在 9 月，YouTube 就宣布推出一项名为 Dream Screen 的服务，该功能可以自动生成视频和照片用作背景。不过对于创作者来说，仅能自动生成视频是不够的，能为短片配上独特的背景音乐才算圆满。

现在， Dream Track 填补了这一缺失——Lyria 生成包含该艺术家 AI 生成声音的原创 Shorts 配乐，供创作者使用。这也有利于 YouTube 与「宿敌」TikTok 竞争用户。

YouTube Shorts 中试用 Dream Track

有短视频创作者抢先体验了一把 Charlie Puth 风格的创作，创作主题是她的宠物狗索尔：

除了 Dream Track ，强劲的 Lyria 模型还被用来构建今天宣布的第二个工具，名为 Music AI。

这是谷歌和与艺术家、歌曲作者和制作人一起设计的一套工具，辅助用户音乐创作。比如，随便唱一段旋律就能变成一段管弦乐演奏的曲子、将 MIDI键盘上的和弦变成真实合唱团的演唱或者给一段口技打击乐配上鼓点。

在这个视频中，制作人/词曲作者 Louis Bell 只用几句 balah~，外加一个文本提示（「萨克斯管独奏」），就自动生成一段萨克斯管曲目，简直不要太好听：

试听链接：
https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

将一段哼唱转化为一段管弦乐：

试听链接：
https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

将 MIDI 键盘和弦转换为真实的合唱团人声：

试听链接：
https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

将类似口技的打击节奏变成一段鼓循环：

试听链接：
https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

YouTube 音乐 AI 工具的用户界面

目前，YouTube 只挑选了约 100 位短视频创作者试用这些功能，并表示 Music AI incubator的参与者能在晚些时候体验到这些新工具。

在音乐生成领域，谷歌并不孤单。

Meta 在 6 月份开源了一款 AI 音乐生成器；Stability AI 也在 9 月推出了 Dance Diffusion，可以根据文本描述生成歌曲和声音效果。像 Riffusion 这样的初创公司也在为他们在这一领域的努力筹集资金。音乐界也在尝试拥抱新技术。

不过，对于 AI 来说，创作引人入胜的音乐尤其具有挑战性。音乐包含大量的信息，包括每一秒的节拍、音符还有和声。当生成长序列声音时，AI 模型很难在乐句、副歌和章节段落之间保持音乐的连续性。由于音乐通常同时包含多种声音和乐器，创作起来也比语音难得多。

Lyria 擅长使用器乐和人声生成高质量的音乐，在转换和保持音乐延续性方面做的不错，能让用户更细致地控制输出的风格和效果。

谷歌 DeepMind CEO 哈萨比斯表示，音乐生成的技能也是一个很好的例子说明大模型越来越具有「多模态」功能。OpenAI 的 ChatGPT 的最新版本除了文本之外还可以处理音频和图像。谷歌 DeepMind 正在开发自己的强大人工智能模型，称为 Gemini，据传具有多模式功能。

不过，使用 AI 模仿艺术家的声音和风格的做法一直令人担忧，也颇具风险。

今年早些时候，环球音乐集团提出版权侵权索赔，要求从 YouTube 和其他平台上删除一首席卷各社交媒体平台的 AI 生成的歌曲「Heart on My Sleeve」，这首歌听起来像是 Drake 和「盆栽哥」之间的合作——尽管他们事实上根本没有参与这首歌。

DeepMind 在博客文章中表示，使用 Lyria 创建的音轨将带有 SynthID 水印，人耳听不到，也不会影响聆听体验。

水印可以在修改音轨时保留下来，因此即使有人在音轨中添加了更多噪音，将其压缩成 MP3 文件，理论上仍然可以分辨出是否包含来自 Lyria 的音频。

SynthID 通过将音频转换为二维可视化图谱来添加数字水印

打了水印音频的波形动画

发布这些新工具的几天前，YouTube 宣布了针对人工智能生成的深度伪造的新内容指导方针，旨在保护人们，并最终保护该平台的音乐行业合作伙伴。

参考链接

https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/

https://www.theverge.com/2023/11/16/23963570/youtube-generative-ai-dream-track-music-tools-voice-clone

工程YouTube谷歌DeepMind