几天前,微软语音识别实现了历史性突破,英语的语音转录达到专业速录员水平,机器之心也独家专访了专访微软首席语音科学家黄学东,了解到词错率仅 5.9% 背后的「秘密武器」——CNTK。但微软的成果是在英语水平上的,从部分读者留言中我们了解到对汉语语音识别的前沿成果不太了解,这篇文章将向大家介绍国内几家公司在汉语识别上取得的成果(文中提到的论文可点击阅读原文下载)。
10 月 19 日,微软的这条消息发布之后在业内引起了极大的关注。语音识别一直是国内外许多科技公司发展的重要技术之一,微软的此次突破是识别能力在英语水平上第一次超越人类。在消息公开之后,百度首席科学家吴恩达就发推恭贺微软在英语语音识别上的突破,同时也让我们回忆起一年前百度在汉语语音识别上的突破。
去年 12 月,百度研究院硅谷人工智能实验室(SVAIL)在 arXiv 上发表了一篇论文《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin(Deep Speech 2:端到端的英语和汉语语音识别)》,介绍了百度在语音识别技术的研究成果。
论文摘要:
我们的研究表明一种端到端的深度学习(end-to-end deep learning)方法既可以被用于识别英语语音,也可以被用于识别汉语语音——这是两种差异极大的语言。因为用神经网络完全替代了人工设计组件的流程,端到端学习让我们可以处理包含噪杂环境、口音和不同语言的许多不同的语音。我们的方法的关键是 HPC(高性能计算)技术的应用,这让我们的系统的速度超过了我们之前系统的 7 倍。因为实现了这样的效率,之前需要耗时几周的实验现在几天就能完成。这让我们可以更快速地迭代以确定更先进的架构和算法。这让我们的系统在多种情况下可以在标准数据集基准上达到能与人类转录员媲美的水平。*
最后,通过在数据中心的 GPU 上使用一种叫做的 Batch Dispatch 的技术,我们表明我们的系统可以并不昂贵地部署在网络上,并且能在为用户提供大规模服务时实现较低的延迟。
论文中提到的 Deep Speech 系统是百度 2014 年宣布的、起初用来改进噪声环境中英语语音识别准确率的系统。在当时发布的博客文章中,百度表示在 2015 年 SVAIL 在改进 Deep Speech 在英语上的表现的同时,也正训练它来转录汉语。
当时,百度首席科学家吴恩达说:「SVAIL 已经证明我们的端到端深度学习方法可被用来识别相当不同的语言。我们方法的关键是对高性能计算技术的使用,相比于去年速度提升了 7 倍。因为这种效率,先前花费两周的实验如今几天内就能完成。这使得我们能够更快地迭代。」
语音识别技术已经发展了十多年的时间,这一领域的传统强者一直是谷歌、亚马逊、苹果和微软这些美国科技巨头——据 TechCrunch 统计,美国至少有 26 家公司在开发语音识别技术。
但是尽管谷歌这些巨头在语音识别技术上的技术积累和先发优势让后来者似乎难望其项背,但因为一些政策和市场方面的原因,这些巨头的语音识别主要偏向于英语,这给百度在汉语领域实现突出表现提供了机会。
作为中国最大的搜索引擎公司,百度收集了大量汉语(尤其是普通话)的音频数据,这给其 Deep Speech 2 技术成果提供了基本的数据优势。
不过有意思的是,百度的 Deep Speech 2 技术主要是在硅谷的人工智能实验室开发的,其研究科学家(名字可见于论文)大多对汉语并不了解或说得并不好。
但这显然并不是问题。
尽管 Deep Speech 2 在汉语上表现非常不错,但其最初实际上并不是为理解汉语训练的。百度美国的人工智能实验室负责人 Adam Coates 说:「我们在英语中开发的这个系统,但因为它是完全深度学习的,基本上是基于数据的,所以我们可以很快地用普通话替代这些数据,从而训练出一个非常强大的普通话引擎。」
该系统能够识别「混合语音(hybrid speech)」——很多普通话说话人会组合性地使用英语和普通话。
在 Deep Speech 2 于 2015 年 12 月首次发布时,首席科学家吴恩达表示其识别的精度已经超越了 Google Speech API、wit.ai、微软的 Bing Speech 和苹果的 Dictation 至少 10 个百分点。
据百度表示,到今年 2 月份时,Deep Speech 2 的短语识别的词错率已经降到了 3.7%(参考阅读:http://svail.github.io/mandarin/)!Coates 说 Deep Speech 2 转录某些语音的能力「基本上是超人级的」,能够比普通话母语者更精确地转录较短的查询。
百度在其技术发展上大步迈进,Deep Speech 2 目前已经发展成了什么样还很难说。但一项技术终究要变成产品和服务才能实现价值。
百度的 Deep Speech 识别技术是很惊人,但就像前文所说一项技术终究要变成产品和服务才能实现价值,科大讯飞无疑在这方面是做得最好的公司之一。
科大讯飞在自然语言处理上的成就是有目共睹的,在语音识别上的能力从最初到现在也在不断迭代中。2015 年 9 月底,机器之心对胡郁的一次专访中,他就对科大讯飞语音识别技术的发展路线做过清晰的介绍:
到今年 10 月份刚好过去一年,科大讯飞的语音识别技术在此期间依然推陈出新,不断进步。去年 12 月 21 日,在北京国家会议中心召开的以「AI 复始,万物更新」为主题的年度发布会上,科大讯飞提出了以前馈型序列记忆网络(FSMN, Feed-forward Sequential Memory Network)为代表的新一代语音识别系统。
论文摘要:
后来通过进一步的研究,在 FSMN 的基础之上,科大讯飞再次推出全新的语音识别框架,将语音识别问题重新定义为「看语谱图」的问题,并通过引入图像识别中主流的深度卷积神经网络(CNN, Convolutional Neural Network)实现了对语谱图的全新解析,同时打破了传统深度语音识别系统对 DNN 和 RNN 等网络结构的依赖,最终将识别准确度提高到了新的高度。
后来,科大讯飞又推出了全新的深度全序列卷积神经网络(Deep Fully Convolutional Neural Network, DFCNN)语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好的表达了语音的长时相关性,比学术界和工业界最好的双向 RNN 语音识别系统识别率提升了 15% 以上。
DFCNN 的结构如图所 示,DFCNN 直接将一句语音转化成一张图像作为输入,即先对每帧语音进行傅里叶变换,再将时间和频率作为图像的两个维度,然后通过非常多的卷积层和池化(pooling)层的组合,对整句语音进行建模,输出单元直接与最终的识别结果(比如音节或者汉字)相对应。
纵观整个互联网行业,可以说搜狗作为一家技术型公司,在人工智能领域一直依靠实践来获取更多的经验,从而提升产品使用体验。
在前几天的锤子手机新品发布会上罗永浩现场演示了科大讯飞的语音输入之后,一些媒体也对科大讯飞和搜狗的输入法的语音输入功能进行了对比,发现两者在语音识别上都有很不错的表现。比如《齐鲁晚报》的对比结果:
八月份,搜狗发布了语音交互引擎——知音,其不仅带来了语音识别准确率和速度的大幅提升,还可以与用户更加自然的交互,支持多轮对话,处理更复杂的用户交互逻辑,等等。知音平台体现出搜狗在人工智能技术领域的长期积累,同时也能从中看出他们的技术基因和产品思维的良好结合。
搜狗把语音识别、语义理解、和知识图谱等技术梳理成「知音交互引擎」,这主要是强调两件事情,一是从语音的角度上让机器听的更加准确,这主要是识别率的提升;另一方面是让机器更自然的听懂,这包括在语义和知识图谱方面的发展,其中包括自然语言理解、多轮对话等技术。
据搜狗上个月的一篇微信公众号文章写道:
不过遗憾的是,搜狗还尚未公布实现这一结果的相关参数的技术信息,所以我们还不清楚这样的结果是否是在一定的限定条件下实现的。
就像TechCrunch 统计的美国有 26 家公司开发语音识别技术一样,中国同样有一批专注自然语言处理技术的公司,其中云知声、思必驰等创业公司都在业内受到了极大的关注。
上图展示了云知声端到端的语音识别技术。材料显示,云知声语音识别纯中文的 WER 相对下降了 20%,中英混合的 WER 相对下降了 30%。
在今年 6 月机器之心对云知声 CEO 黄伟(参见:专访云知声CEO黄伟:如何打造人工智能「云端芯」生态闭环)的专访中,黄伟就说过 2012 年年底,他们的深度学习系统将当时的识别准确率从 85% 提升到了 91% 。后来随着云知声不断增加训练数据,如今识别准确率已经能达到 97% ,属于业内一流水平,在噪音和口音等情况下性能也比以前更好。
思必驰的联合创始人兼首席科学家俞凯是剑桥大学语音博士,上海交大教授。他在剑桥大学待了 10 年,做了 5 年的语音识别方面的研究,后来做对话系统的研究。整体上,思必驰做的是语音对话交互技术的整体解决方案,而不是单纯的语音识别解决方案。因此在场景应用中,思必驰的系统和科大讯飞的系统多有比较,可相互媲美。
当然,此领域内还有其他公司的存在。这些公司都在努力加速语音识别技术的提升。语音识别领域依然有一系列的难题需要攻克,就像微软首席语音科学家黄学东接受机器之心专访时所说的那样,「理解语义是人工智能下一个需要攻克的难题,要做好语音识别需要更好的语义理解,这是相辅相成的。」