Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南作者

番茄小说AI的演技登上全网热搜,让火山语音出了名

研究员大战「硬演 AI」的故事。

AI 整的活,永远出乎人类的预料。最近,一个网络小说阅读 APP 因为有 bug 登上了热搜,b 站上也出现了不少搞笑视频,一些还有百万播放量。


引发人们广泛讨论的「番茄小说」是抖音旗下的阅读 APP,和其他很多同类应用一样带有听书功能,AI 算法生成的语音可以让你直接去听任何文字版小说,同时去做别的事。

番茄小说的不同之处在于——相对大多数 APP,它的语音合成 AI 「更聪明一点」:能够把文字读出不同音色和语气,如果文字是「哈哈哈……」,AI 不会平淡地念出来,而是真的会笑起来;当读到两个人对话的时候,它还能自动把声音分成两个不同的语气,从而区别出不同的角色。

然而在某些小说里,如果作者写的文字给的 S 太多,AI 会进入死循环发出怪声,或者文字中带有几段英文,甚至希腊字母,那么 AI 就会读出完全的中式英语。

这就让人有点绷不住了,毕竟在网文世界里,人们往往很在意这种特殊用法的描写。

语音合成有多难

AI 喜提热搜后,我们和这项技术的开发者聊了聊。

「番茄小说 bug 的热搜确实出乎我们预料,在内部大家也讨论了很久,」火山语音(字节跳动 AI Lab 智能语音团队)负责人马泽君说道。「最近一段时间,人们对语音合成技术的进步感到兴奋,但万万没想到是从这个角度火出圈的。」

马泽君表示,修复 bug 的技术早已研发完成。问题出现后,经过和业务方的沟通,快速上线了新的模型,bug 就被修复了。旧版本的存量音频正被逐渐替换,网文爱好者们向鬼畜区投稿的快乐并没有持续太久。

其实,在字节跳动内部,马泽君领导的团队与番茄小说的合作从 2019 年就开始了。去年,火山语音已经对语音合成模型进行了大版本迭代,从早期的自回归结构演变成引入外部时长对齐机制的非自回归结构。相比原先的模型,新模型在消除对齐错误以及累积误差等方面有了很大改进,从而解决了发声不清晰、超长句停不下来的问题。

而为解决「中式英语」的问题,研究团队通过跨语种迁移,已能让没有英文训练数据的音色模型也能发出标准的美式口音(具体可见:「当你的童年男神学会了多种语言无缝切换」)。

这些工作说来容易,但对于研究人员来说,要想构建一个完美的语音合成 AI 需要克服很多挑战。

人工智能领域里,语音技术是计算机视觉(CV)和自然语言理解(NLP)之外的另一个重要领域,最早的研究可以追溯到 1952 年。一个典型的语音合成系统(Text-to-Speech,TTS)通常分成三个标准技术模块:文本分析前端,中间的声学模型,和最后的声码器(vocoder)。


为了让机器发出的声音接近真人,首先需要保证输出内容不读错,这就需要文本分析模型来进行解析。为了能读出轻重缓急,声学模型需要在文本分析得出的语言学特征基础上对发音的语速、音高和停顿进行预测,再以 Mel 谱特征输出。最后,声码器负责将 Mel 谱转化成为波形输出,它需要保证高质量的音质,避免出现金属音等情况。

在番茄小说中,文本分析前端采用了 NLP 领域应用广泛的 Transformer 架构模型 BERT,通过神经网络加规则混合的正则化模型(TN)和多任务前端模型,结合长期的人工规则修正,不断提升前端的句级别精度,并通过蒸馏、量化等技术降低了算力需求。声学模型采用了以 LConv 为基础的 parallel Tacotron 结构,声码器使用了以 GAN 为基础的全神经网络架构。

真人朗读之所以听起来自然,是因为人类对上下文内容的理解。为了让合成语音更加好听,在常规 TTS 流程之上,火山语音团队还加入了更多功能模块,实现了角色归属、情感控制两个模块。在角色归属中同样采用了 bert 结构,进行对话判定和指代消歧两个任务的建模,另外也采用类似的结构进行情感预测。

「小说文字中可能会出现多人对话,一个说话人又可能会存在多种情感,我们把音色和情感进行了解耦,可以更好地控制合成语音的表现力,进而就可以实现不同的音色和不同情感的灵活组合,这也是一项较大的突破。」马泽君说道。

AI 多播是另一个有趣的尝试:算法模型先通过上下文理解,得出每句话是旁白还是对话、由哪个角色说的、以怎样的情感表达等相关信息, 再用对应人设和情感的模型进行合成,最终完成一部有声书的演绎。

语音合成的 AI 虽然有些地方读法不对,但大多数时候都给人带来了很好的体验。在演示 bug 的视频下也有网友认为,番茄小说的文本朗读是同类 APP 里听起来最舒服的。


火山语音除了为番茄小说提供了 AI 朗读技术外,还支持了语音搜索的能力,后者可以帮助用户更快捷地找到自己感兴趣的小说。

「比如你可以对手机说:找《风起陇西》对应的原著小说,我们能让用户听得更爽,找得更快,」马泽君表示。

层出不穷的黑科技

番茄小说是抖音在 2019 年初推出的免费阅读产品,如今已成为目前国内在线阅读 APP 领域里热度最高的一个。AI 朗读技术在其中起到了不小作用。

火山语音正计划把这些能力迁移到更多语言中,借助跨语言合成技术,不仅能用准确的音色读出英文,还覆盖了西班牙语、印尼语等,同时可以保留原本的小说风格。这大大丰富了旗下的国际单播音色矩阵,为不同国家的用户提供了更多的选择。

除了情感合成和多角色朗读这两个最大特点,火山语音目前正在探索的方向是在 AI 文本朗读的过程中加入背景音乐和音效。「我们还在探索多角度的声源定位,让你在戴上耳机的时候,空间音频效果可以演绎出脚步声的移动,获得身临其境的体验,」马泽君说道。

除了能让 AI 念小说,火山语音的研究还覆盖语音的多个方面,今年的国际语音技术顶会 ICASSP 2022 上,字节跳动有关音乐翻唱检索的研究 Bytecover2 被大会接收,其能在海量曲库中准确搜索出一首曲目的不同翻唱版本。

在上一代的 Bytecover 研究中,火山语音曾创造性地将 ResNet-IBN 模型和多任务学习的思路应用到了翻唱特征识别任务中,显著提高了翻唱特征的鲁棒性和可区分性。Bytecover 在国际音乐信息检索竞赛 MIREX 上取得了历史最好成绩,准确率比第二名高了 8%,大幅刷新了翻唱识别赛道历年最好记录,mAP 指标达到 84%,是同年参加该竞赛的其他方案性能的 14 倍。

DYZC1 为字节跳动提出的方法。

而在 Bytecover2 上,作者通过使用主成分分析(PCA)对全连接层(FC)进行初始化,构建PCA-FC模块对特征进行降维,减少了计算开销,把检索速度一下提升了八倍。更重要的是,这项技术目前已经在字节系大量产品中落地,在音乐分发、曲库整理、智能推荐等任务中发挥了重要作用。

AI 研究最近的趋势是「大模型」。在计算机视觉自然语言处理上,大规模预训练模型已经成为重要的研究方向,火山语音也在语音领域进行了探索。其提出基于 Swin transformer 音乐自监督预训练方法 S3T 可以有效挖掘音乐的时域和频率信息,其在多个下游任务取得了业界领先的效果。例如 S3T 在行业通用的音乐分类数据集上相比之前的自监督方法准确率提升了 12.5%,还超过了特定任务上的最优监督学习方法。

字节跳动面向全球市场,需要面对大量数据和广泛的需求,语音大规模预训练模型是我们研究的重要方向,」马泽君表示。「在最新的工作中,研究人员分别从算法和工程优化了数百万小时语音数据的预训练,实现了百亿参数规模的大模型。」

未来,火山语音还希望去做千万小时数据规模,完成千亿参数的大模型,实现支持 100 种语言的目标。

字节跳动的 AI,还会给我们带来更多惊喜。

把领先技术开放出去

为番茄小说打造 AI 语音技术的火山语音团队于 2017 年 10 月成立,目前已有百名成员,在北京、上海、深圳,及海外的新加坡和波兰都设有研发中心。

近期有关火山语音的另一个消息是有媒体报道负责人离职,马泽君表示,报道中提到的梅晓系原 AI Lab 语言学专家,主要负责语言学语音合成技术上的应用。并非 AI Lab 的智能语音部门负责人。

梅晓本人也对此进行了辟谣。

火山语音长期以来面向字节跳动内部各业务线以及火山引擎 ToB 行业与创新场景,提供了全球领先的语音 AI 技术能力以及卓越的全栈语音产品解决方案。在音频理解、创作、检索和生成以及智能对话等领域持续进行场景创新以及行业赋能,高效解决了语音通信、人机语音交互、音视频内容理解与创作等领域诸多问题。

「我们不仅负责前沿算法的研究,也肩负着工程化的任务,面向公司的整体业务」马泽君说道。「我们认为人工智能不仅可以在实验室里实现技术突破,或者是展示酷炫的效果,更希望它们可以走向实际应用场景。只有通过与用户不断互动,迭代提升,我们才能实现这样的目标。」

不仅是番茄小说,火山语音技术的应用已经覆盖到了抖音、剪映等字节跳动核心内容产品和工具上。智能语音提供的多语言的视频字幕能力可以使用 13 个语言,面向 30 多个国家提供服务。除了向娱乐产品提供服务以外,其语音技术也向火山引擎及飞书提供能力。

儿童节之际,火山语音旗下的 AI 音乐人 ByteMuse 在抖音上新了《摇摇车》、《喵喵》、《sunny kitty》三首 AI 创作的童趣配乐,大小朋友都能更有仪式感地记录、分享生活,欢迎大家在抖音上体验。
产业字节跳动
1
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

主成分分析技术

在多元统计分析中,主成分分析(Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

多任务学习技术

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

音乐分类技术

音乐分类是指将音乐样本依据其特点划分为某个类别或类型。

语音合成技术

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~