Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

参与寓扬

投喂4万种噪声,20种语言方言实时转录,搜狗「开挂」录音笔这样炼成

一款「开挂」的录音笔,你会喜欢吗?

在 AI 的加持下,录音笔仿佛有了开挂的「人生」: 

最高支持 10 米远距离拾音,可过滤 4 万余种真实噪音;可根据用户语言习惯个性化转写,语音转写准确率达 98%;还能区分不同人声,做重点标记,自动提炼摘要。

它还能充当你的翻译官,支持 63 种语言的对话翻译,以及同声传译。

你可以用它做会议录音、听课记录、采访,也可以用它与不同国家的游客交流,甚至可以拿着它刷美剧。

没错,这正是搜狗新推出的新款 AI 录音笔 S1。它的背后,不单单是一款硬件,更是搜狗 AI 能力的集合。
搜狗公司 CEO 王小川道出了他们做 AI 硬件的目的,「随着 AI 技术的进步,我们希望用户能更自由的表达,用你的声音、表情或肢体来表达,机器就可以理解,这些我们能做到的时候,就算达到了一个技术高度。」

01、搜狗 AI 录音笔是如何炼成的?

从搜狗输入法到语音交互、机器翻译,再到 AI 硬件,这背后有着深刻的搜狗 AI 发展逻辑。

早在 2016 年,当时搜狗没有做 AI 硬件,而是做了语音开放平台「知音引擎」,尝试技术输出。

但当时各路语音平台纷纷涌现,方案上没有谁真正不可替代,客户往往在多家间来回切换。另一方面,通用技术平台体验并不理想,加上 AI 行业处于早期,软件免费的思路还停留在很多人心中。

因此从 2017 年下半年开始,搜狗开启 AI 硬件的探索,沉淀技术,打磨硬件与场景。

2018 年上半年,搜狗推出探索之作——AI 翻译机和 AI 录音笔。如今 AI 硬件,已和输入法、搜索一样,是搜狗的几大重要战略之一。

接着 2019 年 3 月,搜狗又推出一款小巧的 AI 录音笔 C1,它具备了最新产品的雏形,支持语音转写、云端分享、中英同传等多种 AI 功能。

更重要的是,C1 的出现让略显疲态的录音笔行业鲜活了起来。经过用户一段时间的使用,搜狗对用户行为数据深入分析后,第一次呈现了用户的真实画像。
搜狗发现,使用录音笔的第一大场景并非大家预想的媒体采访,而是企业内部的商务场景,比如会议记录,占比高达 44%;其次是学习培训占比 24%,媒体采访占比 21%,这三大场景占总使用场景的近九成。

正是基于对三大场景的思考,在 C1 的基础上,搜狗推出全新的 S1 和 E1 两款 AI 录音笔,还与故宫宫廷文化合作推出两款联名产品。

对比这两代产品,搜狗 CTO 杨洪涛解释,C1 系列解决的是随身便携的录音需求,可以像领件一样夹在衣领上,它的使用空间相对近场,一般不要超过 3 米。而最新发布的 S1 和 E1 产品,主要解决复杂场景的录音需求,能在多人会议、课堂听讲、嘈杂背景采访中使用,可将使用范围扩大到 5~10 米。
为了满足更为复杂专业的需求,搜狗在远距离拾音、降噪上投入颇多。AI 录音笔 S1 搭配 2 颗哈曼指向性麦克风和 6 颗全向麦克风,在麦克风阵列算法的加持下,可有效过滤噪音,实现最高 10 米远距离拾音。

更重要的是,它还采用 AI 降噪,能够过滤 4 万余种真实噪音,让人声收录更清晰。

搜狗 AI 交互技术部总经理陈伟解释道,在硬件降噪基础上,搜狗首次将基于深度学习的降噪能力完全产品化。「我们使用了 4 万多种噪声,让模型学习到人声与噪声的区别,从而达到超出麦克风阵列以及行业其他降噪方案的更好降噪效果。」

在现场的测试环节,AI 录音笔 S1 面对键盘敲打、吹风机等的考验下,依然能够过滤噪音,提取清晰的人声。

可以看出,在硬件之路上摸爬滚打近 3 年后,搜狗对于 AI 硬件的理解也更为深刻。

只有面向用户体验,深入场景打磨技术,将技术、硬件、场景融合才能构建 AI 的竞争力。

02、AI 要转化为服务能力

搜狗内部有一句话叫,只做技术是不够的,技术要转化为服务能力。因为没有面向场景的深度优化,技术往往是一种鸡肋。

搜狗 AI 录音笔 S1


围绕多人会议、学习培训、媒体采访等核心场景,搜狗 AI 录音笔 S1 除了做到「超强拾音」外,还具备「准确转写」「高效整理」「全能翻译」的能力,也呈现出搜狗将技术转化为服务能力的思考。

如果放在一个工作流中,录完音后,如何准确快速地语音转写至关重要。如果交给人来做是个繁重的体力活,而语音转写软件多不准确。

搜狗称,AI 录音笔 S1 及 E1 目前已能达到 98% 的转写准确率。这一数字背后搜狗做了大量的优化工作。

首先,搜狗输入法每天 8.3 亿次的语音请求,为听写服务提供了绝佳的「练兵场」,结合远场语音数据和真实场景的优化,已能将准确率达到不错的效果。

在此基础上,搜狗又打通用户输入法账号,根据用户的语言习惯,进行个性化转写。此外,搜狗语音团队还专门围绕财经贸易、医疗卫生、IT 科技、政法、文化体育等 5 个领域,构建专用语言模型,进一步提升行业词汇的识别,做到了 98% 的准确率。

S1 及 E1 这两款产品也十分高效,均可做到录音 1 小时,出稿 5 分钟,并且支持 10 种语言和 10 种方言的录音与转写。
搜狗 AI 录音笔 E1

接下来是高效整理。结合使用场景,搜狗做了一些非常实用的功能点,让人印象深刻的是「敲重点」和智能摘要技术。

当你在听课或者参加会议时,突然听到一句神来之笔或者金句,「敲重点」就派上用场了。S1 有一个专用「M」键,按一下,它就会将这句话标记为重点。

面对一篇万字长文,如何能快速获取其关键信息。正是出于这种考虑,搜狗推出智能摘要功能,但其效果如何呢?

陈伟坦言,在 AI 录音笔中提取摘要,远大于学术研究中的摘要生成问题,因为录音笔是在噪声环境下,语音识别难以保证 100% 的准确率,从噪音文本中整理出符合文章语意的摘要是相当困难的。

因此在技术路线上,搜狗没有使用生成模型,而是采用抽取式的摘要能力,基于原文找到关键词,再通过排序算法,从文章中抽取关键句,形成摘要,保证足够的精度。

此外,AI 录音笔 S1 还能支持 5 人内的人声分离,从而在文稿中自动分段呈现。考虑到掌声、笑声、点赞等节点可能会出现一些重点或金句,它还会自动识别并重点标记。

除了录音笔所需要的服务外,搜狗还将 AI 翻译能力内嵌其中。

目前搜狗 AI 录音笔 S1 支持 63 个语种的在线翻译,9 种离线翻译。在对话过程中,S1 还具备自由对话功能,能够自动识别说话人是否讲完,进而呈现翻译结果,无需手动操作。

此外,它还具备同声传译功能,你可以带着它听英文演讲、报告,屏幕上就会同步翻译中文字幕。

种种服务背后,正如搜狗 CTO 杨洪涛所言,AI 录音笔是为了让人们更自由的表达,而这背后所用到的技术,相当多是对搜狗原有技术体系的复用,并针对硬件做更好的 AI 优化。

03、AI 加持,行业呈现「新蓝海」

与搜狗 AI 录音笔迭代一同上演的是,录音笔行业的洗牌与变革。

录音笔是一个相对狭小的传统市场,过去 20 年间没有太多变化,随着智能手机集成功能的持续丰富,它面临被手机替代的风险。

因此我国录音笔每年销量在 400 多万台徘徊,增长基本停滞,市场多被索尼、爱国者、纽曼等硬件厂商占据。

随着搜狗 AI 录音笔 C1 推出,市场格局开始出现变化。2019 年 6 月,它便成为京东录音笔类目单品销量冠军、天猫录音笔类目单品销售额冠军,随后 11 月又拿下天猫京东双平台单品总销量冠军。

更为重要的是,AI 录音笔的出现,在主流电商平台上,让原本趋于平缓甚至下滑的录音笔品类访客数据明显上升,既有的市场天花板正在被打破,行业呈现「新蓝海」。
到 2020 年一季度,AI 录音笔的销量已占据整个录音笔市场的 35%,行业变革正在上演。

与此同时,行业逐渐意识到 AI 优质服务的重要性,不少公司主动找到搜狗,甚至包括一些硬件上的竞争对手,询问能否购买搜狗的 AI 能力。

对于搜狗而言,尽管在硬件上取得一定成绩,但很难一家独大。因为在 C 端硬件市场,即使是最大的玩家,也很难占据 50% 以上的市场份额。但软件不同,后者可以发挥网络效应,一家独大。

内外部因素碰撞下,搜狗决定再往前迈一步,开放 AI 录音笔背后的听写服务。去年 8 月,搜狗联合爱国者、纽曼、索尼录音笔、万城集团等录音笔行业头部企业,成立 AI 创新联盟,将搜狗 AI 能力开放给业界。

传统录音笔以硬件为主的商业模式也正在被打破,「硬件+服务」的新型收益模式正在形成。

搜狗 CTO 杨洪涛称,「过去传统硬件主要是卖毛利,未来我们希望探索一种服务化模式,通过 AI 能力向用户提供更多增值服务,扩展传统商业模式的空间。」

在 AI 录音笔身上,我们看到两条不断交织的线,一条是搜狗 AI 的演进线,在「自然交互+知识计算」的指引下,从最初的语音识别发展到机器翻译、搜狗分身,再到如今的多模态交互。

另一条是 AI 硬件变革线,将 AI 能力不断注入硬件中,升级一个行业,而录音笔只是第一个。
产业搜狗语音识别
1
相关数据
排序算法技术

排序算法是将一串数据依照特定排序方式进行排列的算法,最常用到的排序方式是数值顺序以及字典顺序。基本上,排序算法的输出必须遵守下列两个原则:输出结果为递增序列(递增是针对所需的排序顺序而言);输出结果是原输入的一种排列、或是重组。

麦克风阵列技术

麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

推荐文章
暂无评论
暂无评论~