随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放,尤其是最近几年,不仅涌现了很多国内外的小公司,而且巨头们也开始加速语音识别行业的布局。本文就详细盘点一番国内外的大型公司,并对他们掌握的技术进行分析,同时预测一下未来的语音识别趋势,期望带给行业内外的专业人士些许参考,借此更进一步推进整个行业的发展。
1国外语音识别行业收购盘点和技术分析
传统语音识别行业贵族Nuance逐渐没落
任何时候提到语音识别,都不能避过Nuance这家公司,这家公司曾经在语音领域一统江湖,世界上有超过80%的语音识别都用过Nuance识别引擎技术,其语音产品可以支持超过50种语言,在全球拥有超过20亿用户,几乎垄断了金融和电信行业。就算现在,仍旧是瘦死的骆驼比马大,Nuance依旧是全球最大的语音技术公司,掌握着全球最多的语音技术专利。苹果语音助手Siri、三星语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心,刚开始都是采用他们的语音识别引擎技术。Nuance已经登陆了纳斯达克,三星、苹果和百度都和它传过绯闻,传言多次收购,但是全都无疾而终。
事实上,Nuance有点过于自大了,语音技术即便冠绝全球,但是在具体应用上,差距就没有那么大了。语音识别技术并非高不可攀,实际上一款用户体验较好的语音识别系统,很大程度上依靠数据和经验,专利和算法什么的并没有那么重要。聪明人自然很多,所以巨头们只需考虑挖到专业人士或者收购初创公司,自主研发出不逊于Nuance的语音识别技术也不是太难的事情,又何必花费巨资看Nuance脸色呢。
苹果收购Siri、Novauris Technologies、VocallQ和Emotient
苹果的Siri已经鼎鼎大名了,也算世界上语音识别的执牛耳者。Siri并不是苹果自己研发的技术,而是2010年苹果收购Siri Inc.公司的产品,2011年苹果将该技术融入到iPhone 4S中并发布了Siri语音助理。Siri Inc.这家公司成立于2007年,原本核心技术是CALO人工智能项目。当然Siri刚开始发布的时候语音识别的体验还很差,众多果粉也是四处吐槽。因此2013年苹果又收购了语音识别公司Novauris Technologies。Novauris是一种可识别整个短语的语音识别技术,这种技术并非简单识别单个词句,而是试图利用超过2.45亿个短语的识别辅助理解上下文,当然这是很有难度的一件事情。不管怎样,这次收购也让苹果进一步完善了Siri的功能。
但是这还是不够,因此2015年苹果又收购了英国语音技术初创公司VocalIQ。VocalIQ开发的人工智能软件,能够帮助计算机与用户进行更为自然的对话。VocalIQ使用机器学习(machine learning)开发虚拟助手,将语音处理和机器学习技术整合到可穿戴设备、家庭联网设备当中的同时,这家公司还特别关注车载应用的开发。这次收购也证实了苹果将来迈入汽车领域的决心。Siri应该是通用语音识别领域用户体验当前较好的产品,特别是在儿童语音识别领域,这也得益于苹果极易上手的特性吸引了众多小朋友,也包括笔者家里的小朋友。
当然,Siri还是距离我们的实际应用需求还差很远,因此苹果最近又收购了美国圣地牙哥 AI 技术公司 Emotient,接收其脸部表情分析与情绪辨别技术。据悉,Emotient开发的情绪引擎可读取人们的面部表情并且预测其情绪状态。
谷歌收购SayNow,Phonetic Arts,Wavii,SR Tech Group及出门问问
这个领域当然少不了大名鼎鼎的谷歌,但是谷歌动作稍微迟缓,2011年谷歌才出手收购语音通信公司SayNow和语音合成公司Phonetic Arts。SayNow可以把语音通信、点对点对话、以及群组通话和Facebook、Twitter、MySpace、Android和 iPhone等等应用等整合在一起,而Phonetic Arts可以把录制的语音对话转化成语音库,然后把这些声音结合到一起,从而生成听上去非常逼真的人声对话。
当然,这才只是开始,实际上语音技术远没那么简单,因此2013年谷歌以超过3000万美元收购了新闻阅读应用开发商Wavii。Wavii擅长“自然语言处理”技术,可以通过扫描互联网发现新闻,并直接给出一句话摘要及链接。但是谷歌忙活了这么久,似乎还没真正介入语音识别行业,因此谷歌还收购了SR Tech Group 的多项语音识别相关的专利,这些技术和专利谷歌也很快应用到市场,比如YouTube已提供标题自动语音转录支持,Google Glass使用了语音控制技术,Android也整合了语音识别技术等等,Google Now更是拥有了完整的语音识别引擎。但是相比苹果的战略布局,谷歌总喜欢玩花样,似乎战略考虑上欠缺一些。谷歌似乎也意识到了这个问题,因此2015年入资了中国的出门问问,这是一款以语音导航为主的公司,最近也发布了智能手表,出门问问也有国内著名声学器件厂商歌尔声学的背景,谷歌的这个动作也被认为是谷歌重返中国的策略。
亚马逊收购Yap,Evi,Ivona Software
Amazon放在此处凸显重要,这可是一家最有可能把语音识别落地到消费市场的巨头。Amazon的语音技术起步于2011年收购语音识别公司Yap,Yap成立于2006年,主要提供语音转换文本的服务。2012年Amazon又收购了语音技术公司Evi,继续加强语音识别在商品搜索方面的应用,不得不提的是,Evi这家公司也曾经应用过Nuance的语音识别技术。2013年,Amazon继续收购语音技术公司Ivona Software,Ivona是一家波兰公司,主要做文本语音转换,其技术已被应用在Kindle Fire的文本至语音转换功能、语音命令和Explore by Touch应用之中,其最近推出的智能音箱Echo也是利用了这项技术。
Facebook收购MobileTechnologies和Wit.ai
Facebook也是巨头了,任何视频平台无论如何都不能忽略了声学技术,因此Facebook在2013年收购了语音识别公司Mobile Technologies。Mobile Technologies是一家创业型的小公司,其产品Jibbigo允许用户在25种语言中进行选择,使用其中一种语言进行语音片段录制或文本输入,然后将翻译显示在屏幕上,同时根据选择的语言大声朗读出来。这一技术使得 Jibbigo成为出国旅游的常用工具,很好地代替了常用语手册。当然这远不能满足Facebook的野心,Facebook继续收购了语音识别公司Wit.ai。Wit.ai是一家语音交互解决方案服务商,允许用户直接通过语音来控制移动应用程序、穿戴设备和机器人,以及几乎任何智能设备。简单来说,就是“能把语言转化为可操作的数据”。当然Facebook的想法也很简单,将这种技术应用到定向广告之中,这种巨头更希望将技术和自己的商业模式紧密结合在一起。
微软战略发展Skype、Cortana和微软小冰
微软这个总是以发论文为自豪的公司,技术自然很牛,也给国内这个行业培养了很多人才。例如Skype Translator,起初是为英语和西班牙语用户提供实时翻译服务,后来开始支持汉语和意大利语两种语言。Skype计划在所有相关的平台上翻译尽可能多的语言,从而带来与电影《星际迷航》中一样的智能翻译工具,这个宏伟目标也只有这种不差钱的土豪才能说出来,万一实现了呢?
当然微软最吸引眼球的并非Skype,而是微软的Cortana和微软小冰。Cortana是一款个人用户助理,是微软在机器学习和人工智能领域方面的尝试。Cortana可以记录用户的行为和使用习惯,利用云计算、搜索引擎和“非结构化数据”分析,读取和学习包括手机中的文本文件、电子邮件、图片、视频等数据,来理解用户的语义和语境,从而实现人机交互。而微软小冰是微软亚洲研究院2014年发布的人工智能机器人,微软小冰除了智能对话之外,还兼具群提醒、百科、天气、星座、笑话、交通指南、餐饮点评等实用技能,实际上,这个被微软亚洲研究院定位于18岁少女的小冰,被训练的更具有女流氓气质。
国外其他行业的巨头也加入收购
另外还有一些巨头也相继进入语音这个行业,例如2013年英特尔收购了西班牙的语音识别技术公司Indisys,同年雅虎也收购了自然语言处理技术初创公司SkyPhrase。而美国最大的有线电视公司Comcast也开始推出自己的语音识别交互系统。Comcast希望利用语音识别技术让用户通过语音就可以更自由控制电视,并完成一些遥控器无法完成的事情,例如用户可以对着电视说出一些关键词,就可以从他们的DVR中找出相关的视频,而且这也将支持Comcast直播的电视节目。
2国内语音识别行业的发展和技术分析
科大讯飞:中科院典范,站稳教育市场
科大讯飞是目前国内最有影响力的语音技术公司,成立于1999年底,依靠中科大的语音处理技术以及国家的大力扶持,很快就走上了正轨。在2008年的时候就已经挂牌上市,目前市值接近500亿,根据2014年语音产业联盟的数据调查显示,科大讯飞占据了超过60%的市场份额,绝对是语音技术的龙头企业。一提到科大讯飞,可能大家想到的都是语音识别很牛,但其实它最大的收益来源是教育,特别是在2013年左右,收购了很多家语音评测公司,包括启明科技等,对教育市场形成了垄断,经过一系列的收购后,目前所有省份的口语评测用的都是科大讯飞的引擎,由于其占据了考试的制高点,所有的学校及家长都愿意为其买单。这种局面很难打破,所以其霸主的地位也很难撼动。
百度语音:有钱任性,技术实力很强大
百度语音这个怎么描述才好呢,百度语音其实很早就被确立为战略方向,2010年与中科院声学所合作研发语音识别技术,但是市场发展相对缓慢。百度几乎成为了很多归国人员刷简历的跳板,包括一些高层,其简历表上都被各大巨头公司排满了。但这对公司来说,有个卵用。因此直到2014年,百度重新梳理了战略,终于找对了人,请来了人工智能领域的泰斗级大师吴恩达,正式组建了语音团队,专门研究语音相关技术,由于有百度强大的资金支持,到目前为止收获颇丰,斩获了近13%的市场份额,其技术实力已经可以和拥有十多年技术与经验积累的科大讯飞相提并论。
捷通和信利:也是老牌,发展却很坎坷
同样也是在2000年左右,还有两家公司也相继成立,这就是捷通华声和中科信利。捷通华声凭借的是清华技术,成立初期力邀中科院声学所的吕士楠老先生加入,奠定了语音合成的基础。中科信利则完全依托于中科院声学所,其成立初期技术实力极为雄厚,不仅为国内语音识别行业培养了大量人才,而且也在行业领域,特别是军工领域发挥着至关重要的作用。中科院声学所培养的这些人才,对于国内语音识别行业的发展极为重要,姑且称之为声学系,但是相对于市场来说,这两家公司已经落后了科大讯飞一大段距离。中科信利由于还有行业市场背景,目前基本上不再参与市场运作,而捷通华声最近也因为南大电子“娇娇”机器人的造假事件被推上了风口浪尖,着实是一个非常负面的影响。声学相关类公司不同于其他行业,技术才是其发展壮大的根基。
思必驰:放弃教育市场,进军智能硬件
在2009年左右,DNN被用于语音识别领域,语音识别率得到大幅提升,识别率突破90%,达到商用标准,这极大的推动了语音识别领域的发展,这几年内又先后成立许多语音识别相关的创业公司。成立较早一点的是思必驰,2007年成立,创始人大部分来源于剑桥团队,其技术有一定的国外基础,当时公司主要侧重于语音评测,也就是教育,但经过多年的发展,虽然占有了一些市场,但在科大讯飞把持着考试制高点的情况下,也很难得到突破。于是在2014年的时候,思必驰痛下决心将负责教育行业的部门剥离,以9000万卖给了网龙,自己则把精力收缩专注智能硬件和移动互联网,最近更是集中精力聚焦车载语音助手,推出了“萝卜”,可市场反响非常一般。虽然思必驰最近获得了阿里战略注资,但是笔者访问其官网的时候,却发现放在首要位置的竟是小智音箱,不知道这个卖了没几台的音箱能带给思必驰什么?
云知声:融资迅猛,就是不见落地
借着2011年苹果Siri的宣传势头,2012年云知声成立。云知声团队主要来源于盛大研究院,凑巧的是CEO和CTO也是中科大毕业,与科大讯飞可以说是师兄弟。但语音识别技术则更多的源于中科院自动化所,其语音识别技术有一定的独到之处,有一小段时期内语音识别率甚至超越科大讯飞。因此也受到了资本的热捧,B轮融资达到3亿,主要瞄准智能家居市场。但至今已经成立了3年多,听到的更多是宣传,市场发展较为缓慢,B2B市场始终不见起色,B2C市场也很少听到实际应用,估计目前还处在烧钱阶段。但是这样个烧法总是危险,科大讯飞已经上市暂且不论,思必驰和出门问问也怀抱巨资试图落地,而且语音识别行业这个玩法,国内巨头必然也会学习国外巨头的思路,显然收购初创企业拥有更多话语权,相对更为实在。
出门问问:歌尔和谷歌入资,主打移动
出门问问也是成立于2012年,其CEO曾经在谷歌工作,在拿到红杉资本和真格基金的天使投资之后,从谷歌辞职创办了上海羽扇智信息科技有限公司,并立志打造下一代移动语音搜索产品——“出门问问”。出门问问的成功之处便是苹果APP的榜单排名,但是笔者不知道有那么多内置地图的情况下,为啥还要下载这个软件,显然有时候比直接查找地图还要麻烦。出门问问同样也具有较强的融资能力,2015年更是拿到了Google的C轮融资,融资额累计已经7500万美元。出门问问主要瞄准可穿戴市场,最近自己也推出了智能手表等产品,但也是雷声大,雨点小,没见得其智能手表的销量如何。
再数数其他的一些业界公司
语音识别的门槛并不高,声学在线很多文章里提到过,因此国内各大公司也逐渐加入进来。搜狗开始采用的是云知声的语音识别引擎,但很快就搭建起自己的语音识别引擎,主要应用于搜狗输入法,效果也还可以。腾讯当然不会落后,微信也建立了自己语音识别引擎,用于将语音转换为文字,但这个做的还是有点差距,想必大家也都体验过。阿里,爱奇艺,360,乐视等等也都在搭建自己的语音识别引擎,但这些大公司更多的是自研自用,基本上技术上泛善可陈,业界也没有什么影响力。
3国内外巨头布局语音识别的策略差异
上面历数了国内外各个巨头陆续建立语音识别引擎的过程和优势技术,有一点我们还是要特别留意一下:国外巨头欲进入语音识别行业,首先想到的就是收购初创的团队,这些团队大都也在5-20人之间,掌握着一定的优势技术。显然收购一家初创团队很难满足其战略发展,因此一旦技术与公司业务融合以后,这些巨头都会频繁出手再次收购以补齐短板,逐渐建立起适合自己公司发展的语音识别优势。对于技术相对重要而且技术点又比较分散的科技型公司,国外巨头一般不会采取收购商业模式公司的那种大手笔来收购,这也是导致Nuance最终无人问津的重要因素。想想也是,巨头自然不会用别人家引擎以免将来掣肘,何况收购技术类的大型公司无疑也是给自己找了个麻烦。
国内的语音识别发展脉路没有那么清晰,刚开始各个巨头也都是采用专用公司比如科大讯飞、中科信利、云知声等公司的引擎。后来醒悟过来,纷纷谋求自建,但是除了百度不断砸入重金后获得了一定的效果外,其他自建的各大公司没有啥实质性进展。这一点从他们试图低薪聘请语音识别相关人才的策略上,也可知道其战略上没什么可发展的。语音识别行业属于声学和计算机的交叉技术,本来培养的人才就很稀缺,而从上述分析可以看出,国内外的技术源头实际上大概集中,无非就是业界相关的研究机构和拥有研发实力的巨头公司。
4语音识别行业平衡之下的技术发展趋势
语音识别行业现在似乎维持着最大的平衡,因为国内外各家的引擎识别率都基本在同一个水平线上,差不多达到了当前语音识别技术的极限,彼此之间差距不是那么明显。本来苹果发布Siri被寄予厚望,这是将语音技术进行大众推广的绝佳良机,但是Siri的表现却与预期相差甚远。即便国内非常火热的微信,其中又有几人使用,甚至知道其中的语音识别技术呢?倒是同样源自声学技术的微信摇一摇功能非常火热。这个技术相对语音识别来说,简直就是小巫见大巫,但是应用场景契合的很好。因此,传统的语音识别行业公司都在谋求转型发展,比如Nuance、科大讯飞等,转型失败或者技术储备不足的,或许将来就是最早倒下的,而且这几年也有不少家类似公司倒下了。
未来的语音识别市场,预计将会有越来越多的公司参与,以后语音识别的性能可能更多的体现在前端技术和语义理解上。机器要与人自然交流,当然就不能重复手机这套语音对话规则,必然就要考虑到用户说话的环境、周围环境的噪音、用户发音不准或者方言等等诸多因素,这就要求前端技术更加精准的模拟人体结构,仿真出机器人听觉系统,以实现解放双手自由对话的目的。另外,机器能不能与人自由的交流,不仅需要机器能将语音转换成文字,更需要机器从文字中理解说话人的含义,这一方面是基于大样本的机器学习需要更进一步,另外一方面也需要小样本的自主学习,没有举一反三的功能,似乎语义理解也无法自主适应陌生的环境。这两个新兴的技术领域,或许又会孕育出几家独角兽企业,将真正推动语音从识别走向交互的自然体验,从而向着人工智能再次迈进一步。