后排左起:Wayne Xiong, Geoffrey Zweig, Frank Seide;前排左起:黄学东, Dong Yu, Mike Seltzer, Jasha Droppo,Andreas Stolcke;摄影:Dan DeLong
在周一的发表的一篇论文《Achieving Human Parity in Conversational Speech Recognition》中,微软人工智能与研究部门的一个研究者和工程师团队报告出他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER),达到了 5.9%,而上个月这一数字还是 6.3%(参见机器之心文章《语音识别新里程碑:微软新系统词错率低至 6.3% 》)。
5.9% 的词错率已经等同于人速记同样一段对话的水平,而且这是目前行业标准 Switchboard 语音识别任务中的最低记录。
「我们已经达到了人类水平,」微软首席语音工程师黄学东说。「这是一项历史性的成就。」
这个里程碑意味着,一台计算机在识别对话中的词上第一次能和人类做得一样好。而这个团队也达到了他们一年前设下的目标,而且结果大大超过了每个人的预期。
「即便在五年前,我都没想过我们有一天能达到这个水平,连可能性都没有想过,」微软人工智能与研究团队的执行副总裁沈向洋说。微软的语音识别研究起源于上世纪七十年代的 DARPA(一个为国家安全从事技术研发的美国政府机构),这一里程碑是几十年研究的成果。过去几十年里,最主要的技术公司和研究机构都参与了进来。
「这一成果是我们这二十年努力的顶峰,」管理语音和对话研究组的 Geoffrey Zweig 说。
这一里程碑将为能用语音识别来增强的消费和企业产品带来广泛的影响,其中包括像 Xbox 这样的消费娱乐设备、像即时语音-文本速录这样的辅助工具和像 Cortana 这样的个人数字助理。
「这个技术会让 Cortana 变得更加强大,变成一位真正的智能助理,」沈向洋说。
这个研究里程碑并不意味着计算机就能完美地识别每一个词了。事实上,人类也不能做到这一点。相反,这意味着计算机的词错率——即计算机将「have」误听为「is」、将「a」误听为「the」这样的错误率——和你从同样的对话中出现误听的错误率是一样的。
Zweig 将这项成就归功于在这个系统的各个方面中对最新的神经网络技术的系统性的使用。
使这些研究者登顶的推动力是对神经语言模型(neural language models)的使用。在这种模型中,词被表征为了空间中的连续向量,比如「fast」和「quick」这样意思相近的词在空间中也相隔较近。
「这让这些模型可以很好地将一个词泛化到另一个词,」Zweig 说。
深度神经网络需要使用大量数据(被称为训练集)来教计算机系统识别图像和声音这样的输入中的模式。
为了达到人类水平的里程碑,该团队使用了微软的计算神经网络工具包(Computational Network Toolkit),这是一个用于深度学习的微软自家开发的系统,该团队已经通过一个开源证书将其发布到了 GitHub:https://github.com/Microsoft/CNTK。
黄学东表示 CNTK 在跨多台运行 GPU 专用芯片的计算机上快速处理深度学习算法的能力已经得到了极大的提升,正是这样的速度提升让他们的研究成为了可能并最终达到了人类的水平。(参考《专访微软首席语音科学家黄学东: CNTK是词错率仅5.9%背后的「秘密武器」》
回报来得很快,但一旦这个团队意识到了他们将会有所成果,他们就很难停止手头的工作。黄学东说这一里程碑是在大概凌晨 3:30 左右达到的;几个小时后他醒来的时候发现了这一结果,并且在私人的社交网络上看到了一张宣示胜利的帖子。
「对我来说,那就像是梦想成真了。」黄学东说,他已经在语音识别问题上工作了 30 多年。
在这同一周,微软的另一个专注于计算机视觉的研究团队也实现了一个他们自己的里程碑:这个团队在 COCO 图像分割挑战赛(COCO image segmentation challenge)上获得了第一名,这个比赛是评判一项技术可以在确定图像中特定物体的位置上达到怎样的水平。
微软亚洲研究院副院长郭百宁说分割(segmentation)是极其困难的,因为这项技术必须精确地描述出图像中物体的边界。他说:「这是图片中最难找出的部分。」
该团队的技术构建于微软的计算机视觉专家去年设计的一种获过奖的非常深度的神经网络系统之上,其结果优于第二名 11%,并且也已经在微软去年第一名的成绩上实现了显著的提升。
「我们将继续作为图像识别领域的一个领导者,」郭百宁说。
参考阅读:《微软亚洲研究院常务副院长郭百宁:计算机视觉的最新研究与应用》
尽管视觉和语音识别在近些年来都取得了巨大的进步,但这些研究者仍然提醒说仍然还有很多的工作要做。
展望未来,Zweig 说研究者正在努力工作以确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方,比如聚会场所或在高速路上驾驶的时候。他们也将关注如何更好地在多人交谈环境中将不同的说话人区分开,并且确保其能够在各种各样的声音上发挥效用,而不管说话人的年龄、口音或说话能力。
从更长远来看,研究者将会关注如何教计算机不只是转录来自人类嘴巴的声音信号,而且还要理解他们所说的话。这样就能让这项技术可以根据自己被告知的内容回答问题或采取行动。
「下一个前沿是从识别走向理解,」Zweig 说。
沈向洋指出我们正在从一个人类必须理解计算机的世界迈向一个计算机必须理解我们的世界。不过他也提醒说:真正的人工智能仍然还在遥远的地平线上。「在计算机能理解其所听到或看到的事物的真正含义之前,还需要很长时间的工作,很长的路要走。」
摘要:自 1990 年代 DARPA Switchboard 语料库发布以来,对话语音识别(conversational speech recognition)就一直是语音识别领域的一项旗舰任务。在这篇论文中,我们在广泛使用的 NIST 2000 测试集上测量了人类的误差率,并且发现我们最新的自动系统已经达到了与人类相当的水平。对于 Switchboard 部分的数据(其中新近纳入的是对话人谈论一个指定的主题),专业速记员的误差率是 5.9%;而对于 CallHome 部分数据(其中朋友和家人进行开放式的对话),专业速记员的误差率是 11.3%。我们的自动系统在这两个案例中都建立了一个新的、当前最佳的和最前沿的超越人类水平的基准。这标志着这是有史以来第一次在对话语音上达到人类水平的报告。我们的系统达到如此表现的关键是系统性地结合使用了卷积和 LSTM 神经网络与全新的空间平滑方法(spatial smoothing method)和 lattice-free MMI 声学训练。