转载原创

2019/09/19 16:00

滴滴语音作者

Interspeech 2019 | 从顶会看语音技术的发展趋势 01

语音领域顶级学术会议 Interspeech 2019 于 9 月 15-19 日在奥地利格拉茨Graz举行。

技术小编小滴将在Interspeech会场每天带来今年的语音技术发展趋势，本文选取论文仅代表小滴个人兴趣。

今天带来的是：9月16日主会议第一天上的会议亮点，开幕式介绍，以及在语音识别，语音合成，自然语言理解和说话人识别四个方面的深入技术解读。

会议亮点

今年的Interspeech在一些Oral Session里设置了一个Survey Talk的环节，来针对性介绍相关领域的技术。

Interspeech的Oral Session一般是那些相对关注度高的Session，一般被安排在整个会场最大展厅（Main Hall）里。

9月16日上午的End-to-end Speech Recognition的Session的第一个环节是一个40分钟的Survey Talk，内容是“Modeling in Automatic Speech Recognition: Beyond Hidden Markov Models”。同样在下午的Attention Mechanism for Speaker State Recognition的Session中有一个关于 When Attention Meets Speech Applications: Speech & Speaker Recognition Perspective的Survey Talk。

这两个Survey Talk讨论的主题虽然侧重有所不同，但都和Attention有着非常强的连接。

一个是从ASR建模的角度展开，从HMM出发，引出了CTC以及Attention等模型，并做了对比讨论。另一个是从Attention算法的提出以及在语音当中的应用展开，对比讨论了多种不同的Attention模型及其变种在语音识别和说话人识别的应用情况。

值得注意的是，Attention相关算法几乎出现在了今年Interspeech的所有语音识别或者说话人识别研究的文章中。从最开始Attention，到Listen-Attend-Spell，再到Self-Attention（或者Transformer），在不同的文章（无论Oral或者Poster）被大家多次介绍和分析，频繁出现在了相关文章Introduction环节中。

如第一个Survey Talk里面讨论的内容一样，语音识别经历了从2012年最开始的DNN的引入时的Hybrid HMM结构，再到2015年开始吸引大家研究兴趣的CTC算法，而后到近两年的Attention相关结构的研究热点。

当然Attention结构下，依然还有很多内容需要研究者们进一步地深耕：例如今天的Survey Talk里面提到的在一些情况下Hybrid 结构依然能够得到State-of-the-art的结果，以及语音数据库规模和Attention模型性能之间的关系。

开幕式

9月16日的上午Interspeech的开幕式上，主委会总结了今年的论文和赞助情况。

语音技术深度解读

接下来技术小编将在语音识别，语音合成，自然语言理解和说话人识别四个方面的带来深入的语音技术解读。

语音识别

在此次会议上，端到端语音识别仍然是ASR研究的一大热点，正如上文提到的，基于Attention机制的识别系统已经成为了语音技术研究主流。

CMU和KIT的研究者在"Very Deep Self-Attention Networks for End-to-End Speech Recognition"文章中创新性地提出了一种非常深的自注意力机制的网络，采用这种Deep Self-Attention的网络，可以大幅提升端到端语音识别系统识别精度。

同时，随着端到端语音识别框架日益完善，研究者们对端到端模型的训练和设计更加的关注。RWTH的研究者在“RWTH ASR Systems for LibriSpeech: Hybrid vs Attention”一文中，详细的研究了基于端到端语音识别框架，我们可以从建模单元、声学模型建模模型、语言模型等各个方面来提升端到端识别系统的整体性能。

语音合成

高音质语音生成算法及Voice conversion是今年Interspeech研究者关注的两大热点。

IBM research的Zvi Kons等人在“High quality, lightweight and adaptable TTS using LPCNet”文章中，提出了一种基于LPCNet的TTS系统，此系统具有高音质、轻量化、适应能力强等优点。

而今年的Voice Conversion方向的研究重点主要集中在基于GAN的方法上。NTT的Takuhiro Kaneko在文章“StarGAN-VC2：Rethinking Conditional Methods for StarGAN-Based Voice Conversion”中，提出了第二代的StarGAN，该方法提出了一种新的源-目标条件对抗损失函数，这样可以把所有源域数据转换为目标域数据。同时文章提出一种新的基于调制方法的模型框架。从实验结果看，该方法可以大幅提升Voice Conversion的性能。

自然语言理解

在今年的会议中，在端到端的口语的语言理解（Spoken Language Understanding）的方法上，会大量侧重在基于预训练（Pretraining）的方法，也有一些使用新的建模单元（如基于帧），以及用GAN，对抗训练（Adversarial Training）来获取更加有效的口语文本的表示。

基于预训练（Pretraning）的方法可以缓解纯端到端的方法标注数据少以及很难训练的问题。这个方法主要是用其他相关任务中同领域/跨领域的有/无标注数据预训练一个模型。训练完模型，再利用该模型初始化或者知识蒸馏（Knowledge Distill）来指导当前的语言理解模型的训练，进而用该模型进行目标语言理解任务的学习。

基于预训练（Pretraining）的方法主要分为基于语音和文本。基于语音的方法主要有预训练ASR、Speaker模型；基于文本的方法主要有预训练Intent Detection、Slot Filling、Bert等方法。

在端到端的口语的语言理解（Spoken Language Understanding）中，对话生成的方法的主要是利用更多有用的信息来学习得到更加有效的对话的特征表示，从而生成更加丰富准确的对话回复，包括利用主题信息，考虑多轮层次结构信息，以及ASR的置信度。

说话人识别

在16日的会议中，有两个session与说话人技术相关。作为语音信号中的重要信息，说话人信息，特别是说话人识别及切分，正被越来越多的研究者所重视。

16日上午的Speaker Recognition and Diarization着重于说话人切分。

“Bayesian HMM Based x-Vector Clustering for Speaker Diarization”来自说话人技术大牛Lukáš Burget等人。论文介绍了在x-vector系统基础上引入贝叶斯隐马尔可夫模型结合变分贝叶斯推理来解决说话人切分问题的方法。相比传统的AHC聚类方法，论文提出的算法既快又好还鲁棒，带来的显著的性能提升。

“LSTM Based Similarity Measurement with Spectral Clustering for Speaker Diarization”作者为昆山杜克大学的Qingjian Lin与Ming Li等，着重解决说话人聚类中打分性能不好的问题。论文提出了直接使用LSTM替代PLDA作为说话人后端，来提升相似性打分性能。论文方法对DER有明显提升。

“Speaker-Corrupted Embeddings for Online Speaker Diarization”提出了相当有意思的方法。在训练说话人向量提取器时，直接使用UBM超向量作为网络输入，加入其他说话人的信息来增强提取器的训练数据及泛化能力。然而仅使用了64 UBM使得该工作在大数据上的有效性存疑。

16日下午的Attention Mechanism for Speaker State Recognition探讨了Attention机制在ASR之外的应用方向。

综述由ASAPP的Kyu J. Han带来，详述了Attention机制在ASR领域的发展历程，以及在说话人识别上的应用。目前Attention在说话人方面更类似一种Time Pooling，比Average Pooling及Stats Pooling更能捕捉对说话人信息更重要的信息，从而带来性能提升。

随后的几篇论文大多探讨Attention机制在Emotion识别上的应用。

“Attention-Enhanced Connectionist Temporal Classification for Discrete Speech Emotion Recognition”主要结合CTC与Attention机制识别语音中的Emotion。在提问环节，有人问到为何结合两者，因为CTC与Attention机制都可以做序列分类，并且Emotion也不是序列转写问题。作者认为CTC可以通过加入静音Label的方式，将分类问题转为转写问题。

“Attentive to Individual: A Multimodal Emotion Recognition Network with Personalized Attention Profile”结合了多模输入，使用Attention机制优化不同属性说话人（例如老人、儿童等情感表现方式不同的人群）的Emotion识别效果。

理论Interspeech 2019语音识别自然语言理解

相关技术

感知

自然语言理解技术

自然语言理解是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间，都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻，它一方面承载着机器和人的交流，另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯，机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA（Ask Me Anything）栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

来源：机器之心

自注意力技术

自注意力（Self-attention），有时也称为内部注意力，它是一种涉及单序列不同位置的注意力机制，并能计算序列的表征。自注意力在多种任务中都有非常成功的应用，例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系，这种内部关系对于翻译以及序列任务的性能非常重要。

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

说话人识别技术

说话人识别作为模式识别的一类，主要任务是通过待测试语音来判断对应的说话人身份。从识别对象进行划分可以主要分为两个部分：说话人确认（speaker verification）和说话人辨认（speaker identification）。如果待测说话人的范围已知，需要通过语音段对待测说话人的身份进行判断，是否是属于某个说话人，则为说话人确认。说话人确认问题可以归结为是一种1:1的身份判别问题。若说话人的身份范围未知，需要从一定的范围内来对语音段对应的说话人身份进行辨别，这属于说话人辨认问题。说话人辨认问题可以归结为是1:N的问题。从识别语音段的文本，可以讲说话人识别问题分为文本相关问题和文本无关问题。对于文本相关问题，待测试语音段的内容需要和系统中预先登记的内容相同。对于文本无关问题，待测试语音段的内容可以与系统中预先登记的内容不同，待测试说话人可以只说几个字来进行身份认证。

来源：维基百科

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

来源：Wikipedia

对抗训练技术

对抗训练涉及两个模型的联合训练：一个模型是生成器，学习生成假样本，目标是骗过另一个模型；这另一个模型是判别器，通过对比真实数据学习判别生成器生成样本的真伪，目标是不要被骗。一般而言，两者的目标函数是相反的。

来源：机器之心

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

隐马尔可夫模型技术

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

来源：维基百科

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架，即通过遵循“学生-教师”的范式减少深度网络的训练量，这种“学生-教师”的范式，即通过软化“教师”的输出而惩罚“学生”。为了完成这一点，学生学要训练以预测教师的输出，即真实的分类标签。这种方法十分简单，但它同样在各种图像分类任务中表现出较好的结果。

来源：机器之心

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

来源：百度百科