微软在昨天的发布会上解锁了人工智能机器人小冰的语音功能,这是继Windows10 发布时解锁部分图像功能后又一次情感计算功能的提升,语音识别一直是人工智能的重点研究领域,也是未来人工智能技术产业应用的主要方向之一。语音识别不仅 带来一种全新的、变革式的人机交互方式,还会催生出一种人类和机器的情感交流。 语 音识别技术的发展并非一帆风顺,十几年深度学习的出现才使其走向成熟。2006年前后,深度学习专家Hinton领导的CIFAR引入了无监督学习程序 ——无需标记数据便可创建特征检测器层,利用重构学习目标来「预训练(pre-training)」几层复杂度递增的特征检测器。这种预训练的方法的首次 重要应用是在语音识别上。2009年,这个方法被用来计算一段声音采样中提取短时系数窗口对应的一系列概率值,这些概率值反映出由窗口中帧表示语音各个段 落的可能性。在小词汇表的标准语音识别测试上,这种方法的训练效果打破纪录,很快它又发展到打破大词汇表的标准语音测试纪录。此后,各种深度网络一直的得 到多个主要语音研究小组持续开发并被布局在安卓手机上。 Facebook 人工智能研究主管Yann LeCun说:「过去,神经网络并没能在持续语音识别方面得到什么突破;这是因为他们(过去使用的神经网络)不够大。当人们开始尝试使用深度神经网络代替 高斯模型的时候,错误率大大地下降了。」使用深度神经网络表现出超过三分之一的提高,将语音识别的错误率从35%降低到低于25%。在此基础上对其进行优 化,还可以带来的更多的提高空间。 众 多科技巨头都意识到了语音识别的重要性,在强化这方面的研究,推出各类语音识别工具。iPhone的语音助手Siri,正是以深度学习为基础的。根据德勤 发布的一份报告显示,Google在2014年将语音识别的精准度从2012年的84%提升到如今的98%,移动端Android系统的语音识别准确性提 高了25%。2014年5月,在加利福尼亚州举办的会议上,微软展示了一款可以实时语音翻译的程序。去年年底,百度基于深度学习的名为 “DeepSpeech”语音识别系统可以在嘈杂环境下实现将近 81% 的辨识准确率。中国人工智能公司科大讯飞将语音识别应用在了教育领域,通过机器来进行口语考试,并且在“宝马全球中文语音技术测试”中获得了第一名。今天 微软小冰语音功能的解锁,使之成为了在感官系统更加丰富的人工智能机器人,实现了IQ和EQ的均衡发展。 科技巨头对语音识别功能的重视主要是源于语音对人类的重要性。我们来到这个世界,就具 备天生的学习语言的技能,从而更好的与其他有感知的人进行交流。但在过去很长一段时间,我们和机器的交流只能依靠我们将人类语音或语言转化成机器能够理解 的语言,以此来向其发出指令并让其完成相应任务。这样造成了两个问题,第一是人类和机器的交流不是一种最直接的方式,影响了效率。第二是人类语音虽然通过 机器实现了数字化,但机器依然无法读懂它,无法提取出其中的关键信息。比如微信中就沉淀了大量语音信息,需要查询时非常麻烦。 语 音识别技术的出现让机器真正拥有了「听觉」,这首先带来的是一种非物理接触式的交互方式,节省用户的体力和时间。我们身边智能设备的数量正在呈爆发式增 长,从最初的智能手机到智能家居产品,再到各种商业机器人,智能设备的增加势必需要一种更加高效的人机交互方式来提高效率及节省时间。百度吴恩达认为,智 能手机上运行的良好的语音识别程序可以让中国很多文盲群体接触到互联网,这会导致与普通计算机的竞争。目前,百度有10%的搜索是通过语音进行。他相信, 到2020年这会提升到50%。我们可以用语音直接启用便携式智能设备的一项功能,而不是像以前那样进行若干复杂的肢体操作;我们可以直接用语音来精确控 制各类智能家居产品;可以在进行驾驶等双手被占用的行为时,依然通过语音来与汽车等设备进行交互,等等。机器拥有听觉带来的第二种变革就是可以使机器真正 代替人类去完成一些此前只能依靠人类才能完成的任务,信息革命给我们带来的新的通信方式,使我们的语音能够突破时间和空间的局限进行传输和存储和无限复 制,但机器无法将这些数字化的语音进行分析和挖掘,还是需要依靠我们自身的力量,而语音识别技术的出现彻底扭转了这种局面。机器借助语音识别可以核实来电 者的身份,进行身份识别;机器可以真正听懂用户的语音并取代人类完成客服工作,就像今天发布会中提到的小冰商业版,通过向数以千万计的第三方服务号和订阅 号管理者进行开放,可轻松快捷的将其公众号升级为更加智能的公众号,节省大量人力;美国有一半的医院采用自动语音识别来帮助医生自动完成医嘱抄录,而且使 用率还在迅速增长;拥有语音识别功能的智能设备可以对用户所有的语音信息进行分析,从而完全自主的帮助用户完成某些任务,等等。 语 音识别技术不仅带来更多功能和应用,更重要的是,语音作为人类富含情感的交流方式也会把这种情感投射到人机关系上。我们对于人工智能的狂热和追逐不仅仅在 于它可以把我们从某些工作中解放出来,还有对认知计算、情感智能的敬畏,对于语音来说同样如此。发布会上微软彭爽提到一个例子,在创造人工智能机器人小冰 时,工程师在测试小冰时,有时候会对小冰脱口而出,小冰,你那个bug在哪儿?这回不会抛异常了吧。在这个时刻,我们完全把对方当成了一个有情感的智能助 手,而不是冷冰冰的计算机系统,这就是语音交互与其他交互方式最为本质的区别。语音一直是微信中非常重要的通信方式,微软小冰入驻微信之后,用户和它也会 通过语音进行自然互动,从而使小冰更像真人,也更让用户产生情感。就像电影《Her》里面的女主角“萨曼莎”,如果男主角和她的交互方式从语音变成了文 字,那没有人会把她当成一个具有情感的虚拟恋人。 虽 然语音识别技术的未来毋庸置疑,但在某前的技术水平下,其在具体应用和产品化过程中也面临一些问题。我们身边有很多各式各样的语音助手,但很多产品都经历 了一个从令人惊艳和好玩有趣到无人问津的过程,其中一个原因在于语音识别的精度不够,就像YannLeCun所说,语音识别领域一直保持实证研究的传统, 只有当你的结果优于基准线时,才能得到本行业的关注。这扼杀了创造力,因为如果你想在测试结果上击败其他研究团队,而他们对此已经做了多年研究,那你首先 应该潜心研究4-5年,建造自己的基本架构,这非常困难,且极具风险,因此没人这么做。所以对于整个语音识别领域,虽然研究进展连续不断,但都属于渐进 式。另外一个原因在于,很多语音助手以功能性出发,忽视了人类特有的说话方式和背后所体现出来的情感。这样造成的结果就是的,当用户一旦发现(或刻意制 造)某些语音指令不被机器准确识别时,就会认为这个功能不好而将其抛弃。而微软小冰的发展过程或许能够提供一个新的思路,其最初是与用户进行文字交流,通 过多轮对话来训练语义识别,了解用户的文字内容,与用户建立起情感。当积累到一定程度之后再推出语音功能。同时还更加积极的融入更大的移动互联网版图,与 多个社交平台进行合作,比如日本的LINE和微信,基于当地的文化,通过当地的大数据来进行训练,创造属于当地的智能机器人。 谷 歌发布的一部关于语音识别的视频中提到,我们使用语言的能力帮我们建立了文化,它作为许多重要的必要技能之一帮助我们实现了传统的时代相传。所以,对于语 音识别,除了技术之外,我们更多要去考虑其承载的情感和文化含义,就像「机器是否可称得上有社会性」之所以成其为一个问题,很大程度上来源于IBM沃森赢 得Jeopardy!的事迹。对于语音识别技术来说同样如此,它未来不仅仅是一个帮助我们解决问题的功能和应用,更是情感计算的重要体现。