Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

「我也做语音,但不局限于语音」,百度究竟是AI输入法时代的追随者,还是搅局者?

撰文 | 高静宜
编辑 | 宇多田


知乎有位网友是这么评价百度输入法的:因为输入法,可能你会对百度系的软件有点好感。

即便作为一个完全不会五笔,必用拼音输入法的普通用户,我对输入法的要求其实也没有多么苛刻:没有那么多弹窗广告、词库丰富程度还不错,界面符合审美偏好,用着顺手流畅,就 OK 了。

因此,百度输入法还能从哪个角度「做出花儿」来?或者说,百度输入法还能跟其他具备先发优势的输入法相比,有什么自己的优势?这是我们参加百度输入法新品发布会的最大疑问。

在发布会上,如果把百度 AI 技术平台体系总负责人王海峰的演讲汇成一句话,就是「如果你觉得百度其他 AI 应用太高大上了,就先来试试输入法吧」。

在无人车、智能音箱等产品可能需要一定门槛(智能音箱你得花钱买)才能抵达用户的基础上,百度 AI 技术平台体系这个部门,正在利用 AI 技术,通过对包括「手机百度 app」「输入法」「百度地图」等百度系消费级软件的「小修小补」,来不断加强用户对 AI+产品的好感度,最终起到加深大众对百度 AI 技术能力的印象,以及教育市场的作用。

而输入法,就是这样一个绝佳的入口。选择输入法进行 AI 赋能,其实不仅仅是这次发布会想要表达的核心主旨,也是其他竞品的「心里话」:

一款顺手可心的输入法不仅可以提升你的沟通效率,也能赋予你更好地表达自己的能力。而如何做到顺手可心,就需要实现语音识别等 AI 技术的升级,同时也尝试开发 AI 功能的其他潜力。

一项技术突破,两大全新功能

说到语音识别,百度也不是第一个把它用到输入法上的公司。

但是,作为一个在输入法市场中实力强劲的「追随者」,他们在技术改良上的速度并不弱于其他竞品,在短时间内陆续推出了语音修改、语音翻译、语音轻声识别、语音联想表情等 AI 功能。

早在 2012 年,百度就率先上线了基于 DNN 的语音识别模型,此后随着技术的不断迭代,每一年在语音识别技术上都有所进展。



百度语音识别发展历程

在发布会上,百度语音技术部总监高亮发布了百度语音技术的最新突破——深度尖峰技术 Deep Peak 2 模型。

这个模型的全称叫做「基于 LSTM 和 CTC 的上下文无关音素组合建模」。而它的作用就是:把高频出现的音素联合在一起,形成一个音素组合体,然后将这个音素组合体作为一个基本建模单元。


深度尖峰技术 Deep Peak 2 模型
 
Deep Peak 2 模型采用的上下文无关建模方式看似简单,但要解决其背后的问题却并非易事。

国际上也曾有过类似的建模方式,但却无法避免建模时出现的「过拟合问题」(意思是神经网络模型对训练数据拟合程度过当,反而导致在测试集上的效果较差),百度通过声学模型学习和语言信息学习相分离的特殊训练方法,使用音素组合来保留最重要的音素连接特性,最终解决了建模时的过拟合问题。
 
此外,百度利用这种最新的上下文无关建模方式,使得建模单元从原先的上万量级降到了一千以内,大幅提升了语音解码速度,成为百度输入法语音输入能做到实时同步的关键所在。

说了这么多技术原理,那么这种新模型对语音输出效果到底有哪些影响呢?
 
高亮告诉我们,Deep Peak 2 能够充分发挥神经网络模型的参数优势,让语音识别过程稳定性更强,准确度更高,同时还能带来更快的解码速度。

「在提升语音识别整体效率的同时,对中文与英文语料同时适用,具备强大的中英文混合识别能力。」
 
高亮表示,目前百度输入法的语音输入相对正确率已领先行业 20%,该技术继在百度输入法中得到应用后,后续也会出现在百度所有语音相关产品中。
 
为了验证自己的产品不再是高管口头上的「高人一等」或「让你的生活更美好」,百度这次请来了「中国好舌头」华少当场即兴挑战百度的语音识别技术。

在现场,华少用他那不打弯的舌头,以最快的速度在 58 秒内念出了 426 个字。最终,在实时输出的前提下,百度 AI 也全部正确识别出了这段话。426 个字,一字未差。


华少挑战百度语音识别技术

当然,虽然主业是「输入」,但 百度输入法也在尝试探索更多辅助性功能,提升自己的产品吸引力。

譬如,让发布会突然热闹起来的一个「小插曲」,就是百度输入法新增的这两个功能——「语音速记」与「AR 表情」。
 
其中,「语音速记」这个功能在输入法领域,首先独家采用了「声纹识别」技术。该技术主要针对 2-3 人小型会议场景,可根据声纹自动区别发言人,实现智能化的语音识别。



新功能「语音速记」

百度认为,这项功能会造福许多媒体行业的从业者,帮助记者免去整理采访录音这一耗时较长的重复性工作。不过,到底效果如何,还要我们用了才能给出答案。
 
而另一个有意思的功能「AR 表情」,则是基于百度领先的人脸识别技术和 AR 技术。

在演示的一段视频中,用户不仅可根据相机或相册进行人脸识别、制作表情包,还能够通过自己的表情控制虚拟人物形象。而制作出来的 AR 表情,可以直接通过输入法搜索、语音输入和键盘输入时展示出来。

发布这个功能的理由,百度输入法负责人解释,其实更多是从百度输入法的用户属性出发,让产品拥抱年轻文化。

这个解释的依据,是官方给出的一组用户数据:根据年龄划分的百度输入法用户比例中,90 后占 70%,表情输入使用率高达 60%。



新功能「AR 表情」

可期的全感官输入时代

事实上,究竟哪家的输入法最好?网上经常有人抛出这样的问题。
 
一千个人眼中有一千个哈姆雷特。颜文字、表情与皮肤,界面的友好度,词库词汇量的丰富度,翻译功能,语音转文字功能等等,都可能成为一个用户对于一款输入法在 PC 端与手机端满意度的衡量标准。
 
由于不同输入法厂商在上述各方面的投入与实力不尽相同,因此,如何评价一款输入法的好坏成为一个「萝卜青菜各有所爱」的开放性问题。
 
除了百度,搜狗和讯飞输入法也占据了相当的市场份额。
 
发布会上,百度输入法对外宣布,截至目前百度输入法月活用户已达 4 亿,语音输入日流量超过 2.5 亿。

而又据竞品发布的数据统计:截至 2017 年 9 月,搜狗输入法拥有 3.07 亿移动日活跃用户,8700 万 PC 日活跃用户;截至 2017 年 11 月,讯飞输入法用户规模超 5 亿,活跃用户超 1.2 亿,语音用户覆盖率达 40%。
 
尽管输入法本身可能并不盈利或者营收甚微,不过作为积累数据用户的重要方式,输入法的重要性毋庸置疑。各输入法厂商也都在致力于推陈出新,开拓输入法的功能和潜力。

而对于搜狗、百度这类具备搜索基因的公司来说,输入法还承载着为搜索引擎带来流量的可能性。

6 年前,在 PC 端占据主导地位的搜狗输入法就开始探索语音识别在输入法上的能力,进而推出语音输入功能;

而科大讯飞更早,8 年前就着手攻关语音技术,随后不仅将其应用于输入法中,还推出了支持音频一键转文字的语音转写平台讯飞听见。冷启动、微创新、产品思维,一家AI公司孵化输入法的跋涉之旅


同样是在 8 年前,百度也开始布局人工智能,之后陆续把 AI 技术应用到了输入法产品中去,「语音速记」功能也是在这基础上实现的。

不过显然,百度在输入法上动的新念头可不止于此。

除了给予「语音识别」这个 AI 单点能力,百度的「AR 表情」还基于用户的动作、表情捕捉信息,为文字输入形式的人机交互提供了更多可能性。

在这里需要插一句:如果你经常分不清东南西北,可以用一下百度地图中查找步行路线时给出的「AR 实景导航」功能,试用过一次,效果还不错。
 
按照百度的说法,既然「全感官输入」时代的脚步已经临近,那么当更多 AI 技术融入输入法后,也许有一天,输入法可以了解用户各种不同的表达形态,真正跳脱出语言的局限。

产业百度输入法
暂无评论
暂无评论~