国际顶级的语音技术圈会议INTERSPEECH 2020于10月25-30日在中国上海举办,本次会议主题为 “ Cognitive Intelligence for Speech Processing”。思必驰作为白金赞助商参加,支持该国际顶会在这不平凡的2020年顺利举行,致力推进产学研用的一体化进程。
INTERSPEECH 2020共接收有效论文总数2100余篇,实际收录不到一半,为1022篇。其中,思必驰-上海交通大学智能人机交互联合实验室10篇论文被正式收录,涉及说话人识别、语音识别及合成、多模态语音分离、口语语义理解等多方面的源头技术创新研究。
10篇论文简要介绍如下:
《用于单通道多说话人语音识别的上下文嵌入表示学习方法》
Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition
端到端多说话人语音识别是近年来的热门话题。本文探讨了利用上下文信息来提升多说话人语音识别的性能。我们设计了嵌入表示学习模型来直接从多说话人混合语音中准确地提取上下文嵌入表示,同时进一步提出了两种高级的训练策略来改进该新模型,即嵌入表示采样和两阶段训练。实验结果表明,我们的方法在多说话人语音识别上取得了显著改进,与端到端多说话人语音识别的基线模型相比,本文提出的方法减少了相对25%的词错误率。
基于上下文嵌入表示的多说话人语音识别模型结构
《去混响与波束形成相统一的端到端远场语音识别》
End-to-End Far-Field Speech Recognition with Unified Dereverberation and Beamforming
本文将去混响模块集成到端到端多通道语音识别系统中,并探索了两种不同的前端架构。我们在基于神经波束形成的前端中加入基于时频掩码的多源加权预测误差(WPE)模块,用于去混响。其次我们提出了另一种新的前端架构,扩展了加权功率最小化无失真响应(WPD)卷积波束形成器,从而同时实现去混响和语音分离。我们在原始WPD的基础上推导出新的公式,使其可以处理多源输入,并用矩阵求逆运算代替特征值分解,避免显式利用导向矢量,使得反向传播算法更稳定。在wsj1-2mix语料和REVERB数据集上的实验表明,该模型在混响场景下的表现优于传统方法。
《在鸡尾酒会中聆听、观察、理解:音频-视频-上下文的多模态语音分离》
Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation
多个说话人同时说话时,人类可以通过听混合语音,观看说话者并理解上下文信息,将注意力集中在感兴趣的语音上。我们尝试使用三种模态(视觉模态、语音模态以及上下文信息模态)来解决与说话者无关的语音分离问题。与以前的应用纯音频/音视频模态的方法相比,我们设计了特定模型来直接从语音混合中提取所有目标说话人的上下文语言信息,然后将这些提取的上下文知识通过适当的注意力机制进一步合并到基于多模态信息的语音分离体系结构中。实验表明,在新提出的基于上下文信息的语音分离模型上可以观察到显著的性能改善。
《多模态作用很大: Voxceleb数据集上的性能飞跃》
Multi-modality Matters: A Performance Leap on VoxCeleb
来自不同模态的信息通常相互补偿。我们在说话人嵌入特征级别探索了视听人员验证系统的不同信息融合策略和损失函数。我们在说话人嵌入特征级别上使用视听知识的最佳系统在VoxCeleb1的三个公开测试列表上达到了0.585%,0.427%和0.735%的EER,这是该数据集上报告的最好的结果。此外,我们基于VoxCeleb1数据集构建了一个嘈杂的测试集。我们在说话人嵌入特征级别使用数据增广策略来帮助视听系统区分噪声和干净的嵌入。通过这种数据增广策略,所提出的视听人员验证系统在嘈杂的测试集上取得了更好的效果。
《BERT联合编码词混淆网络和对话上下文的口语语义理解方法》
Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding
口语理解可以将自动语音识别得到的假设转换为结构化的语义表示,语音识别错误会使后续口语理解模块的性能严重下降。为了缓解口语理解不确定性的问题,本文提出一种新颖的基于词混淆网络(WCN)和BERT预训练模型的口语语义理解模型(WCN-BERT SLU),对话上下文中的上一轮系统行为也被用作附加输入。该模型对WCN和对话上下文进行联合编码,在BERT架构中集成了词混淆网络的结构信息和语音识别的后验概率。在口语理解的基准数据集DSTC2上进行的实验表明,该方法大大优于以前的最佳模型。
《将部分共享神经网络应用于基于对抗训练的说话人验证领域自适应》
Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network
我们使用领域对抗训练来研究具有不同语言的数据集之间的领域自适应策略。这种架构可以帮助嵌入特征提取器学习域不变特征,同时不会牺牲说话者辨别能力。在SRE16粤语和菲律宾语评估测试集上实现了约25.0%的相对平均等错误率(EER)的改进。
《基于双重对抗领域自适应的泛化重放攻击检测》
Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection
我们提出了对偶对抗领域自适应的框架,通过使用两个领域鉴别器分别对欺骗数据和真实数据进行细粒度的对齐,从而提高欺骗检测的性能。实验表明:该框架对于通用的重放攻击检测更加地鲁棒和有效。
《噪声环境下通过半监督音频事件检测模型训练的语音端点检测器》
Voice activity detection in the wild via weakly supervised sound event detection
我们提出了两种弱监督训练的通用VAD模型,GPV-F和GPV-B。在真实场景的测试中,GPV-F模型比标准VAD模型提升很多,GPV-B模型也获得和标准VAD模型可比的性能。
《神经同态声码器》
Neural Homomorphic Vocoder
本文提出了神经同态声码器(NHV),一种基于源-滤波器模型的神经网络声码器框架,能够通过多分辨率 STFT 损失和对抗损失函数联合进行优化,计算效率高,可控性和可解释性好。
《基于双编码器多专家模型结构的中英文语种混杂语音识别》
Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts
我们研究使用一种崭新的端到端模型来进行中英文语种混杂语音识别。实验结果表明,相比于基线的Transformer模型,我们的结构可以取得大幅度的性能提升。
思必驰拥有全链路的软硬一体化端到端语音交互系统能力,近年来不断加码源头技术的持续创新,通过思必驰-上海交通大学智能人机交互联合实验室、上交大苏州智研院合作的共同努力,在模型泛化及快速定制能力、变帧率语音识别解码技术、说话人识别技术、超高压缩比神经网络模型压缩技术、多模态感知及理解和表达技术等方面,均有显著突破。围绕对话式AI能力,思必驰会不断夯实“全链路智能对话”技术以及“高自由度定制”方案能力。未来也会持续加大对基础源头技术创新与核心产品能力升级的核心投入,持续提升AI+智能终端、AI+智慧服务的快速规模化能力,加速向更多行业场景纵深赋能。