2019/01/18 16:01

云知声声纹识别技术实战——平安好医生声纹登录系统

近日，中国领先的一站式医疗健康生态平台平安好医生（01833.HK）宣布，平安好医生客户端“声纹登陆系统”在经过多次模型优化和升级迭代后，登陆成功率接近 99%，达行业一流水准。该系统由云知声提供声纹技术支持。

声纹识别(Voiceprint Recognition，VPR)也称说话人识别，是一种通过声音判别说话人身份的技术，分为说话人辨识和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的，即“ N 选一”；后者用以确认某段语音是否是指定的某人所说，是“1对1匹配”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需用到确认技术。

作为国内为数不多具备全栈语音技术能力的人工智能公司，云知声已在声纹技术领域深耕多年。团队多位技术骨干曾在美国国家标准技术署(NIST)主办的说话人识别技术评测中多次屡次斩获第一名。

早在 2004 年，尚就职于摩托罗拉公司的云知声创始人黄伟博士便带领团队研发出世界上第一款手机声纹认证系统，搭载该系统的相关产品总计销量超 2 亿台。

近年来，伴随深度学习的兴起，云知声在国内率先将这一技术使用到语音识别中，且后续引入到声纹识别领域，解决了一系列声纹技术实用难点,并应用到实际产品上。此次，云知声和平安好医生联手打造的平安好医生客户端用户声纹登录系统便是其中一项成功案例。

虽然声纹识别优势明显，但要想准确分辨声音特征却并非易事。首先，声纹识别系统性能会受用户发声状态影响，如用户的身体状况、情绪等都会影响识别准确度。其次，环境的嘈杂度，以及采集、传输音频的硬件配置，都会在不同程度上对识别系统行成干扰。

为解决上述问题，云知声声纹技术团队进行了一系列技术攻坚与创新：

首先，依托云知声强大的语音信号前端处理技术，如 VAD、语音降噪等，准确地捕捉到人声并进行背景噪声消除。
其次，云知声将 DNN 引入到传统声纹识别 ivector 技术框架中，并融合最新端到端声纹识别技术，基于云知声超算平台和海量声纹训练数据，使得模型得以学习到数万说话人，每人多种发声的特性，且在云端针对每个用户采用说话人自适应技术，达到越用越好的效果。
在信道处理上，采用 PLDA 信道补偿技术，可将信道影响降到最小。

与此同时，为保障用户登陆的“安全性”，云知声为平安好医生客户端声纹登录系统提供数字串注册和登录的“文本弱相关”技术，工程难度更高，安全性更强。与传统固定口令登录方式不同，该系统采用随机数字串登录方式，即在用户进行登录时，系统会随机下发 8 位随机数字串，可有效规避录音攻击等安全问题。

在同一账号下，云知声声纹识别产品可支持 6 人注册。在客户端云知声提供封装好的 SDK，支持声纹注册、登录、解绑等接口，供上层调用 API 实现产品逻辑。同时，云知声还提供成熟的声纹服务私有化部署方案，基于在金融、客服、快递等不同行业丰富的私有云部署经验，可有效保障客户数据安全。

在移动医疗领域，云知声与平安好医生已建立深度合作关系——2017 年 12 月，双方合资成立上海澔医智能科技有限公司，共同探索以智能语音识别等技术为基础的家庭智慧医疗服务终端建设。

关于平安好医生

平安好医生是中国领先的一站式医疗健康生态平台，致力于通过"移动医疗+AI"，为每个家庭提供一位家庭医生，为每个人提供一份电子健康档案，为每个人提供一个健康管理计划。目前，平安好医生已经形成家庭医生服务、消费型医疗、健康商城、健康管理及健康互动等重点业务板块。

云知声

专注于物联网人工智能服务，拥有完全自主知识产权，是世界领先的智能语音识别AI技术企业之一。公司成立于2012年6月29日，总部位于北京，在上海、深圳、厦门均设有分公司。

http://www.unisound.com/

产业云知声声纹声纹识别

相关技术

AI基础设施 AI芯片技术

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

说话人识别技术

说话人识别作为模式识别的一类，主要任务是通过待测试语音来判断对应的说话人身份。从识别对象进行划分可以主要分为两个部分：说话人确认（speaker verification）和说话人辨认（speaker identification）。如果待测说话人的范围已知，需要通过语音段对待测说话人的身份进行判断，是否是属于某个说话人，则为说话人确认。说话人确认问题可以归结为是一种1:1的身份判别问题。若说话人的身份范围未知，需要从一定的范围内来对语音段对应的说话人身份进行辨别，这属于说话人辨认问题。说话人辨认问题可以归结为是1:N的问题。从识别语音段的文本，可以讲说话人识别问题分为文本相关问题和文本无关问题。对于文本相关问题，待测试语音段的内容需要和系统中预先登记的内容相同。对于文本无关问题，待测试语音段的内容可以与系统中预先登记的内容不同，待测试说话人可以只说几个字来进行身份认证。

来源：维基百科

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?