黄学东
微软首席语音科学家黄学东在产业标准 Switchboard 语音识别任务的最新基准评估中报告出了这样一成果,微软研究者取得了产业中最低的 6.3% 的词错率(WER)。
在这周二发表的一篇研究论文中,黄学东说:「我们最好的单个系统在 NIST 2000 Switchboard 集上取得了 6.9% 的词错率。我们相信这是取得最好表现的不基于系统结合的单个系统。在 Switchboard 测试数据上,数个声学模型的结合将前沿成果推进到了 6.3% 的词错率。」
上周,在旧金山举办的国际语音交流和技术大会 Interspeech 上,IBM 宣称他们取得了 6.6% 的词错率。20 年前,最好的研究系统的词错率是 43%。
黄说:「这一新的里程碑得益于过去 20 年中由来自不同组织的人工智能社区开发出的各种新技术。」
IBM 和微软都提到了深度神经网络时代的到来,其受到了大脑生物处理方法的启发,也成为了语音识别技术进步的关键推动力。计算机科学家已经尝试了数十年去训练计算机系统做图像识别、语音理解这样的任务,但到目前为止,这些系统的准确度仍然不尽如人意。
神经网络构建于一系列的计算层之中。今年早些时候,微软研究员利用一个深度残差神经网络(deep residual neural network)系统赢得了 ImageNet 计算机视觉挑战赛,该系统使用了一种新型的交叉层网络连接。
Geoffrey Zweig
微软的 Speech & Dialog 研究组的首席研究员兼管理者 Geoffrey Zweig 领头此次的 Switchboard 语音识别工作。他在微软带领新型训练算法、高度优化的卷积和循环神经网络模型、CNTK 这样的工具等内容的开发。
论文:微软 2016 对话语音识别系统(The Microsoft 2016 Conversational Speech Recognition System)
摘要
我们描述了微软的对话语音识别系统,在该系统中我们结合了近期在基于神经网络的声学和语言模型上的进展,推进了在 Switchboard 识别任务上的顶尖成果。受到机器学习集成技术(machine learning ensemble techniques)的启发,该系统使用了一系列卷积和循环神经网络。I-vector 建模和 lattice-free MMI 训练为所有声学模型架构带来了显著的提升。使用了多个前向和反向运行 RNNLM 的语言模型重新计分(Language model rescoring)与基于后验的词系统结合为系统性能带来了 20% 的增益。最好的单个系统使用 ResNet 架构声学模型和 RNNLM rescoring,在 NIST 2000 Switchboard 任务上实现了 6.9% 的词错率。结合系统取得了 6.3% 的词错率,代表了在这一基准任务上对先前成果的改进。
导语
近年,由于对卷积和循环神经网络的精心设计和优化,在降低语音识别错误率上我们已经看到了快速发展。尽管我们对基础架构已经很好地认识一段时间了,但它近期才成为了进行语音识别的最好模型。惊人的是,对声学模型和语言模型而言都是如此。相比于标准的前馈 MLP 或 DNN,这些声学模型有能力对大量带有时间不变性的声学环境建模,而且卷积模型还能应对频率不变性的情况。在语言模型中,循环模型通过对连续词表征(continuous word representations)的归纳能力,在传统的 N-gram 模型上实现了进步。同时,集成学习(ensemble learning)已经在多种神经模型得到了普遍的应用,从而通过减少偏差和方差改进稳健性。在此论文中,我们广泛地使用模型的集成,同时也改进单个组件模型,从而推进在对话电话语音识别(CTS)中的进展,CTS 从上世纪 90 年代就已经成为了检验语音识别任务的一项基准。这一系统的主要特征包括:
对卷积神经网络和长短期记忆(LSTM)网络这两种基础声学模型架构的集成,每个架构也有多种变体;
在 LACE 卷积神经网络中的一个注意机制,其可以有区别地为不同距离的语境赋予权重;
Lattice-free MMI 训练;
在所有模型中使用基于 i-vector 的改编版本;
在前向和反向过程中都运行带有多个循环神经网络语言模型的 language model rescoring;
融合网络系统组合与最好系统子集搜索的耦合,这正是在有许多候选系统的情况下所需的
该论文在其他部分对该系统进行了详细描述。Section 2 描述了 CNN 和 LSTM 模型。Section 3 描述了我们对 i-vector 改编版的部署。Section 4 展现了 lattice-free MMI 训练过程。语言模型 rescoring 是该系统的一个重大部分,在 Section 5 中有描述。实验结果呈现在 Section 6 中,随后是对相关工作和结论的讨论。
表 4. 在 eval 2000 set 上的来自 i-vector 和 LFMMI 的性能改进
表 5. 在 eval 2000 set 上不同声学模型的词错率。除非特别标注,所有的模型都在 2000 小时的数据上进行训练,有 9000 个 senones(聚类的结果)。