现在,只要使用一台普通的安卓手机,有听力障碍的人们就可以和他人进行直接无障碍的对话了、和谷歌的大多数产品一样,这种工具支持多种语言(包括中文)。
近日,在一个媒体沟通活动中,谷歌向我们展示了这一最新产品,并介绍了它的开发历程。
据世界卫生组织 (WHO) 估计,全球目前已有 4.66 亿耳聋及听障人士;而到2055年,这一数字将高达9亿。“在65到74岁的人群中,约有三分之一的人报告自己有听力障碍,”GoogleAI产品经理Sagar Savla在活动中介绍道。“我在印度居住的祖父母就有听力障碍。而这些老年人习惯了正常形式的交流,当出现了听觉障碍后生活就会很不方便。”
自动语音识别(ASR)技术能够让计算机检测到人类对话的语言,并将其转录为文本以供阅读。此前,这种方法已经可以为视频自动添加字幕,并可以为电话提供语音转录的文字显示。然而在很多场景下,这种技术还无法部署,它面临着延迟大、设备要求过高等问题。
谷歌一直在试图解决这些挑战。据介绍,Live Transcribe团队成立于去年,其提出的人工智能语音识别技术目前适用于一对一对话形式,并主要依托云计算处理信息。Live Transcribe所搭载的平台是全球分布范围最广的安卓系统——现在全世界已有超过20亿台安卓设备。
Live Transcribe在转录语音时可以很好地结合上下文,减少识别错误。为了让最终产品更加易于使用,开发者们与Gallaudet大学进行了用户体验的研究,并找到了语音转录效率最高的显示方式。目前,它在对话时语音转录的反应延迟低于200毫秒。
Live Transcribe采用了两种神经网络:手机上的网络被用于分类声音,如狗叫和小孩的哭声;分类后的人声信息则交于云端基于RNN的神经网络进行语音识别,其可以在7个字之间上下文范围内进行纠错。
为了提高效率,谷歌在先前AudioSet的工作基础上,实现了基于神经网络的设备端语音检测器。该网络是一种图像式模型,类似于此前发布的VGGish模型,它可以检测语音并自动管理与云ASR引擎的网络连接,将长时间使用过程中的数据流量消耗降至最低。
“谷歌服务器云端处理的方式可以让Live Transcribe覆盖更多人群,并适配更低配置的手机。”Sagar Savla表示,“目前,这一工具可以安装在全球20多种安卓设备上。”
这一工具已支持70种语言,其中包括英语、汉语、西班牙语等主要语言,这意味着它可以覆盖80%以上的全球人口。对于双语家庭而言,Live Transcribe也可以通过快速切换功能处理两种语言。
为了让更多人能够获得Live Transcribe带来的便利,谷歌的开发人员尽可能地减少这种系统的需求。据介绍,其手机端模型大小仅为4m,以便让四五年前买到的智能手机也可以安装。“在设计这个产品之初,我们发现大多数听障人群的设备配置并不高。”Savla介绍道,“但只要有网络,我们的工具就可以工作。”
选择手机作为载体,Live Transcribe也面临着缺乏麦克风阵列的问题。语音识别的一大挑战就是“鸡尾酒会问题”——在背景噪音、多人声存在的情况下,人工智能算法往往无法分辨出目标人的语音。为了解决这一问题,谷歌团队采用了最简单的方法:设计一个两个同心圆形的提示器,若现场噪音过大,则提示“听者”前往一个更安静的地点继续对话。
Live Transcribe项目在谷歌不仅建立起了一个开发团队,也吸引了重量级技术人员的参与——Dimitri Kanevsky也参与了这个研究,他是一个俄裔著名学者,也是一个天生的聋人,早在1998年Dimitri就在开发了第一个远程转录系统,并曾获得美国的很多国家级荣誉。“大腕级的人物加盟推动了新工具的发展。”Sagar Savla表示。
Live Transcribe只是一个开始。目前,这一工具已在谷歌Pixel 3手机上的GBoard上开始了应用。在未来,谷歌还希望能把这一技术推向更多种类的手机,并增强系统的抗噪音能力。