2020/10/29 10:27

京东智联云4篇论文入选国际语音顶级大会Interspeech 2020

在Interspeech 2020中，京东人工智能研究院提交的多篇论文经过重重审核，最终被大会收录。本文将向大家分享京东人工智能研究院入选的4篇论文主要思路与创新点。

近日，受到新冠疫情的影响，原计划于2020年10月25日至10月29日期间，在中国上海+线上同步举行的国际语音顶级会议Interspeech 2020最终改为线上举行。京东人工智能研究院有4篇论文脱颖而出，成功入选本次大会。分别在声音事件定位与检测、语音去混响、语音验证系统、神经网络声码器等领域取得突破。同时，京东智联云作为本届会议的钻石级赞助商，致力于加强工业界和学术界的技术协作，支持会议顺利进行。

Interspeech 2020是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一，是全球最大的综合性语音信号处理领域的科技盛会。该会议每年举办一次，今年大会是第21届INTERSPEECH会议，也是第二次在中国举办。本届会议以“Cognitive Intelligence for Speech Processing”为主题，内容涵盖信号处理、语音识别、自然语言处理、神经机器翻译等领域。

京东人工智能研究院专注于持续性的算法创新，80%的研究都由京东实际的业务场景需求为驱动，聚焦NLP语音、计算机视觉、机器学习（包括深度学习和强化学习）等领域。在Interspeech 2020中，京东人工智能研究院提交的多篇论文经过重重审核，最终被大会收录。本文将向大家分享京东人工智能研究院入选的4篇论文主要思路与创新点。

1、基于多方位波束形成和多任务学习的声音事件定位与检测

（Sound Event Localization and Detection Based on Multiple DOA Beamforming and Multi-task Learning）

声音事件检测和定位在智能家居、智能安防等领域具有重要的应用价值，而环境中的噪声、混响、多声源混叠等给该任务带来了巨大挑战。声音事件检测和定位通常基于麦克风阵列，更广泛而言，如何有效利用多通道麦克风信号，提高基于深度神经网络的语音相关任务的性能，也是仍需解决的问题。

本文提出了一种基于多方位波束形成和多任务学习的声音事件检测和定位方法，主要特点为利用传统声学信号处理为神经网络提供更为丰富的信息。具体而言，通过指向不同预定方位的固定波束形成，可提取各个方位的声源信号，并抑制该方位之外的干扰信号。该方法无需预先进行声源定位或掩蔽估计，即可获得差异化多样化的空间表示。

本文推导了采用训练数据基于互功率谱的导向矢量计算方法，以消除对麦克风阵列几何信息的依赖。进一步，本文分别设计了声源定位网络和基于多任务学习的声音事件检测网络。我们在DCASE2019声音事件检测和定位数据集上进行了评估，结果表明所提算法取得了最好的综合性能。

2、SkipConvNet: 基于功率谱最优平滑及跨层卷积神经网络的语音去混响

（Skip Convolutional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping）

本文所述研究为京东人工智能研究院和德克萨斯大学达拉斯分校的合作研究项目。全卷积神经网络的有效性已经在众多语音应用中得到展现。该网络的一个重要变体是“ UNet”，即包含跨层连接的encoder-decoder的卷积网络。

本研究提出了基于“ SkipConvNet”的降混响算法，该算法用多个卷积网络替换UNet的每个跨层连接，为decoder提供更为直观的信息表示，以提高网络性能。本文还提出了基于最优平滑功率谱估计的预处理步骤，这有助于进一步提高网络的学习能力。采用REVERB Challenge语料库的实验结果表明，所提方法在客观质量评估上显著优于基线系统，并明显改善混响条件下的语音识别及说话人识别性能。

3、FFSVC 2020Challenge JD AI声纹验证系统

（The JD AI Speaker Verification System for the FFSVC 2020 Challenge）

远场声纹识别系统中，声学环境的复杂性以及多变性对声纹识别及验证的性能带来巨大挑战。本文基于FFSVC2020远场声纹验证竞赛，主要探索了数据扩充、模型结构以及打分策略对远场声纹验证性能的影响。

FFSVC2020比赛提供了约1100小时共计120位说话人的数据，如何利用大量的开源近场数据进行数据扩充是本文探讨的主要方向之一。我们采用的策略包括：

1）采用beamforming, voice channel switching和dereverberation等技术将远场数据变换到近场；

2）通过计算FFSVC2020远场数据和近场数据之间的房间冲激相应函数（RIR，room impulse response）以及采用模拟仿真生成大量的RIR，在近场数据上增加卷积噪声；

3）利用录制的大量的环境噪声在近场数据上增加加性噪声；

4）将data augmentation技术用于训练集或者用于测试集增加数据的多样性。实验结果表明，data augmentation能够大幅提升系统的性能。

此外，本文还探索了TDNN，TDNNF，ResNet, Transformer等模型结构在声纹验证里的应用。结合得分规整技术和两级打分策略，相比于官方基线系统，minDCF 绝对降低0.2393，EER绝对降低3.16%。

4、Efficient WaveGlow：一种改进的可提高速度的WaveGlow声码器

（WaveGlow: An Improved WaveGlow Vocoder with Enhanced Speed）

在高质量的语音合成系统中，像WaveGlow这种神经网络声码器已经成为了必不可少的一部分。Efficient WaveGlow是我们提出的一个基于归一化流的高效的神经网络声码器。

和WaveGlow一样，Efficient WaveGlow采用归一化流作为网络框架，每一个流操作由一个affine coupling layer和可逆的1x1卷积层构成。为了减少模型的参数量，提升推理速度，Efficient WaveGlow在以下3个方面对WaveGlow进行了改进：

1）把基于WaveNet网络结构的仿射变换网络改为了基于FFTNet网络结构的放射变换网络，FFTNet网络结构比WaveNet更简单高效，拥有更少的参数量；

2）采用分组卷积进一步减少模型的参数量，提升模型效率；

3）我们尝试了在仿射变换网络中的每一个卷积层中共享local condition，用以减少冗余特征，减少模型的参数量。

Efficient WaveGlow与WaveGlow相比，合成同样长度的音频的计算量降低了12倍以上。同样，模型的参数量也降低了12倍以上。实验结果表明，Efficient WaveGlow并没有明显的声音质量下降，但是却能实现CPU上推理速度6倍的提升以及P40上推理速度5倍的提升。

关于京东AI研究院
京东AI研究院专注于持续性的算法创新，多数研究将由京东实际的业务场景需求为驱动。研究院的聚焦领域为：计算机视觉、自然语言理解、对话、语音、语义、机器学习等实验室，已逐步在北京、南京、成都、硅谷等全球各地设立办公室。

京东科技开发者

京东科技开发者是京东集团旗下为人工智能、大数据、云计算、物联网等相关领域开发者提供技术分享交流的平台。平台将发布产品技术信息、行业技术内容、技术活动及大赛等资讯。拥抱技术，与开发者携手预见未来！

产业京东智联云

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

自然语言理解技术

自然语言理解是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间，都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻，它一方面承载着机器和人的交流，另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯，机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA（Ask Me Anything）栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

来源：机器之心

神经机器翻译技术

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译（NMT）的诞生；神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型，而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外，RNN 应该还能得到无限长句子背后的信息，从而解决所谓的「长距离重新排序（long distance reordering）」问题。

来源：机器之心

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

说话人识别技术

说话人识别作为模式识别的一类，主要任务是通过待测试语音来判断对应的说话人身份。从识别对象进行划分可以主要分为两个部分：说话人确认（speaker verification）和说话人辨认（speaker identification）。如果待测说话人的范围已知，需要通过语音段对待测说话人的身份进行判断，是否是属于某个说话人，则为说话人确认。说话人确认问题可以归结为是一种1:1的身份判别问题。若说话人的身份范围未知，需要从一定的范围内来对语音段对应的说话人身份进行辨别，这属于说话人辨认问题。说话人辨认问题可以归结为是1:N的问题。从识别语音段的文本，可以讲说话人识别问题分为文本相关问题和文本无关问题。对于文本相关问题，待测试语音段的内容需要和系统中预先登记的内容相同。对于文本无关问题，待测试语音段的内容可以与系统中预先登记的内容不同，待测试说话人可以只说几个字来进行身份认证。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息（如声音、图像和生物测量）”的函数。例如，信号处理技术用于提高信号传输的保真度、存储效率和主观质量，并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此，对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

来源：Roland Priemer (1991). Introductory Signal Processing. World Scientific. p. 1. ISBN 9971509199.

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

麦克风阵列技术

麦克风阵列(Microphone Array)，从字面上，指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。早在20世纪70、80年代，麦克风阵列已经被应用于语音信号处理的研究中，进入90年代以来，基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”，这项技术的重要性显得尤为突出。

来源：百度百科

多任务学习技术

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

京东机构

京东（股票代码：JD），中国自营式电商企业，创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com