Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩作者

下一个「洛天依」的打造任务,交给你了

虚拟歌手越来越出圈的今天,自己开发一个 APP 合成歌声已经不是什么难事了。

对于虚拟歌手洛天依的粉丝来说,2022 年 7 月 12 日是一个大日子。这一天,他们聚集在世界各地的屏幕前,陪自己的偶像度过了诞生十周年纪念日。这场历时 3 个多小时的直播演唱会人气直破千万。


图源:https://b23.tv/v290sOn

历时十年经久不衰,这是很多人类歌手都很难做到的事情,但虚拟偶像洛天依做到了。与此同时,很多新生代虚拟歌手也在陆续出道,征服着越来越多二次元以外的人。

很多粉丝留言说,无论从外形还是声音来看,洛天依都越来越精致了,尤其是声音越来越接近真人。这些粉丝的感觉没有错。虚拟歌手的经久不衰,背后的支撑其实是技术的迭代,尤其是歌声合成技术。


虚拟歌手与歌声合成

从技术上来说,歌声合成是语音合成的子领域。但与常规的语音合成任务相比,歌声合成存在一些独特之处 [1],比如:

  • 输入特征比较多(除了音素、声调、韵律边界等文本特征,还有音符、节拍、连音符等乐谱信息),而且这些额外的特征稀疏性很大;
  • 对时长的对齐要求特别严格,节拍要唱准,比如不能将四分音符唱成二分音符;
  • 对音高要求特别严格,旋律要唱准,比如不能把中央 C 唱成中央 D;
  • 要有一定的自然度和情感,涉及倚音、滑音等技巧,音符之间的跳变要有一定的缓冲感;
  • 对采样率等一些语音编码属性有一定的要求;

近几十年来,人们一直在努力解决这些问题,其间经历了基于单元拼接的合成、统计参数合成、基于深度学习的合成等技术路线的迭代和融合。

拼接合成指的是在事先录制好的采样声库中寻找对应的采样并最终拼接成完整歌曲的方法。统计参数合成则是先产生一些合成音频必要的声学参数,然后再利用这些参数合成音频,中间要用到声码器 [2]。

利用这些传统方法,人们很早就做出了一些比较受欢迎的软件,比如雅马哈开发的 VOCALOID。它的早期合成结果可以在一些大火的虚拟歌手中听到,比如初音未来。

然而,仅靠这些传统的方法通常难以细粒度地刻画声音的变化(比如没有换气声、吐字不连贯),与真实的人声仍有差距。随着深度学习的兴起,基于深度学习或融合了深度学习的合成技术渐渐成熟,生成的歌声往往更真实、更细腻 [3]。有人甚至在 AI 合成的歌曲下评论:「AI 比我更像人」。

图源:https://b23.tv/hDiGxuK

可以用于歌声合成的深度学习模型有许多种,包括卷积神经网络、具有长短期记忆(LSTM)的循环神经网络、生成对抗网络等。此外,也有研究者利用歌声合成与语音合成(TTS)的相似性,提出了一些自回归 Seq2Seq 模型。

当然,当前效果更好的一些深度学习架构(如 Transformer)也被用到了歌声合成领域,诞生了 XiaoiceSing、HifiSinger 和扩散去噪概率模型 DiffSinger 等。然而,这些效果较好的深度学习大模型通常需要消耗海量的数据和算力,不是普通开发者或小型创业公司能玩得转的。

不过,普通开发者和小型创业公司可以不用自己动手开发,因为国内已经有一些平台开始提供相应的能力,比如能提供端、云开放能力的华为 HMS Core。开发者只需要简单的几步,就能将这项能力运用到自己的 APP 上(详情见参考链接 [5])。

华为Audio Editor Kit歌声合成样音00:0000:54未加入合集

可以观察到,最近几年,AI 歌声合成这一赛道正变得越来越出圈,也有越来越多的投资人开始看到这一领域的价值。比如去年,结合 AI 进行歌声合成的移动端软件 ACE 虚拟歌姬就获得了数百万美元 Pre-A 轮融资。

为什么大家愿意花这么大精力去投资、打磨歌声合成?在投资人看来,和有深度学习加持的视频剪辑软件一样,这是一种用算力来解放创造力的方式。音乐作为最普世的娱乐内容,但创作还集中在极少数人手上,创作的门槛亟待降低 [6]。

另外,在代表着未来的「元宇宙」中,如果我们想让虚拟人、虚拟演唱会给人更真实、更沉浸的体验,歌声合成也是必须要过的一关。

当然,如果我们想在元宇宙中打造更加沉浸的虚拟演唱会,仅发力打磨歌声合成是不够的,其他技术,比如音源分离、空间音频渲染等也很重要。

如何办一场富有「空间感」的虚拟演唱会?

人类的两只耳朵可以分辨声源的位置,因为从声源传递到两只耳朵的声音存在细微的差异,包括到达时间、接收到的能量以及相位差等信息,这就给人带来了空间感。为了还原这种感觉,空间音频技术使用信号处理的方法对到达两耳的声音信号进行模拟,将声场还原为三维空间,更接近真实世界。

理想的空间音频效果对虚拟演唱会的沉浸感非常重要。我们可以想象一下戴着 VR 头显欣赏邓丽君虚拟演唱会的情景,现场不止有邓丽君的歌声,还有钢琴等乐器的声音,这些声音给我们的感觉不应该是从我们的耳机中发出的,而是我们周围的一片区域,乐器们也各有其位置。

一些传统的 3D 音频制作技术可以达到或接近这种效果,但制作过程比较繁琐,需要获取原始的分轨素材(如录制的人声、钢琴声等),并使用专业的数字音频工作站(DAW)和 3D 混音插件手工制作,因此制作周期长、生产效率低、成本高、门槛高。此外,开发者由于没有歌曲的原始分轨,因此通过传统方法将 2D 音频转成 3D 难度也很大。

深度学习同样可以在这一问题中发挥作用。

通过对大量的音乐进行深度学习建模,并结合传统信号处理能力,我们可以实现音源分离。不过,为了确保每一个乐器都能尽可能地分离完整且干净,我们可能还需要针对不同的乐器音色特点专门设计过程中要用到的变换矩阵和网络结构,这就有一定的技术门槛了。

分离之后的空间音频渲染也存在一些难题,比如要解决因头型、肩宽等人体体征的差异带来的 HRTF(头相关传递函数)因人而异的难题,还要营造空间中声音的反射、散射、干涉等物理现象。

不过,这些问题也已经有了现成的解决方案,而且在上面提到的华为 HMS Core 音频编辑服务(Audio Editor Kit)中都能找到,其独有的变换矩阵、网络结构和一系列的声源滤波技术都已经向开发者开放。开发者仅需输入立体声,就能快速生成 3D 音频内容(详情见参考链接 [7])。

HMS Core音频编辑服务3D音频生成示意图


普通开发者如何入局?

在 AI 所支持的各种产业中,音频编辑是被低估的一个,尤其是在当前虚拟人产品井喷、元宇宙被寄予厚望的背景下。

iMedia Research(艾媒咨询)调研数据显示,接近七成用户喜欢虚拟人形象的外形 / 声音,其次喜欢虚拟人的作品 [8]。他们的数据还显示,2020 年中国虚拟偶像核心市场规模为 34.6 亿元,预计 2022 年将达到 120.8 亿元;2020 年虚拟偶像带动周边市场规模为 645.6 亿元,预计 2022 年为 1866.1 亿元,破圈效应渐显 [9]。这样的市场规模对于产品开发的需求不言而喻。

如果你也想自己构建一个「AI + 音频编辑」APP,或者在自己的 APP 中加入歌声合成、3D 音频等功能,接入华为 HMS Core 等开放能力平台不失为一个便捷的选择,因为这个平台不仅提供了现成的技术能力,还有相应的技术文档、解决方案示例、技术解读课程、互动社区等作为辅助。

官方最近的一次技术解读(HMS Core Discovery 直播第 17 期)便是聚焦 HMS Core 音频编辑服务,展示歌声合成、空间音频渲染、音源分离等能力的新玩法,更有知名的弹唱音乐社区唱鸭 App 加盟,一起探讨影音娱乐应用如何构筑差异化竞争力、打造「声」临其境的听觉盛宴。感兴趣的开发者可以扫码,关注明晚 7 点的直播间。
 

直播互动,赢取精美好礼!

如果你有一些音频编辑方面的开发合作诉求或技术疑问,可以通过以下问卷与节目官方取得联系,获得免费咨询的机会!

音频编辑服务产品调研问卷

点击「阅读原文」可以到官网了解更多信息。

参考链接:

[1]https://mp.weixin.qq.com/s/w_6hgxlyhfaut5ylSpAYxA
[2]https://mp.weixin.qq.com/s/5ErbmM6t-tjh_HxHux9IaQ
[3]https://zhuanlan.zhihu.com/p/333349094
[4]https://arxiv.org/pdf/2110.02511.pdf
[5]https://developer.huawei.com/consumer/cn/forum/topic/0204941271250270953?fid=18
[6]https://www.sohu.com/a/488511824_323328
[7]https://developer.huawei.com/consumer/cn/forum/topic/0204944045144000049?fid=18
[8]https://www.iimedia.cn/c1040/85961.html
[9]https://www.8btc.com/article/6770042
产业音频分析华为
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

Audi机构

奥迪是一间德国跨国豪华汽车制造商,主要从事豪华和高性能汽车制造业。总部位于德国巴伐利亚州的英戈尔施塔特。是大众集团的成员。奥迪与德国品牌宝马和梅赛德斯-奔驰一起,是世界上最畅销的豪华汽车品牌之一。

http://www.audi.com/
生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~