声纹识别前景可好，初创公司声扬科技获千万融资

在产业界还在为TOF还是3D结构光适用于面部识别的时候，有一家公司已经在更安全的声纹识别上迈出了重要一步。

日前，专注于声纹识别的初创企业声扬科技VoiceAI宣布，公司已完成由香港 X 科技基金领投、 Brizan Ventures 等跟投的千万级 Pre-A 轮融资。声扬科技方面表示，本轮融资将主要用于人才团队的建设与培养，一方面在全球范围内招募智能语音领域的科学家、算法工程师等顶尖人才，与香港科技大学人工智能研究中心（CAiRE）合作在香港筹建智能语音研究院，开展相关研究课题，以巩固其在声纹识别等核心领域的领先优势，另一方面夯实产品与开发团队，利用其在海内外多个样板项目的实施经验，在国内安全、金融、物联网等领域对声纹技术应用需求爆发之时快速抢占市场。

声扬科技前台

声扬科技：声纹识别的先行者

在经过智能手机对指纹识别和人脸识别的科普之后，大家对生物识别都有了相当的认识，而声纹识别就是当中一个安全系数比较高的一个识别方式。

所谓声纹识别，是指根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。不同于指纹识别和面部识别需要其他硬件的支持，声纹识别只需要用一个麦克风采集声音就可以跨平台执行声纹识别，这就使得他们较之前两者更有优势；同时，作为目前唯一的主动验证方式，声纹识别的安全度也有了提升，这就驱使声纹识别成为市场追逐的目标，连央行也在去年10月正式对外发布了《移动金融基于声纹识别的安全应用技术规范》金融行业标准，这意味着声纹识别技术得到金融监管部门的认可，也同时意味着其背后有很大的市场静待挖掘。而声扬科技就是当中的先行者。

不同类型生物识别的特征对比

声扬科技由产业界和学术界的语音领域专家于2016年成立，在声纹识别方面有了深厚的积累，同时公司还在语音识别、麦克风阵列和语音信号处理等领域拥有完全自主知识产权的领先算法和应用技术。例如在声纹方面，公司已经推出了声纹1:1，声纹1：N和性别识别等功能，识别准确率也做到了业界领先，超过了99.5%，且能够支持百万级并发和百万级数据库的声纹识别。为了避免录音带来的潜在威胁，声扬科技还自主开发了声音活体检测技术，进一步提升声纹识别的安全性。

基于此，声扬科技的产品也被广泛应用到大金融、社保、安全、政务、物联网与互联网和智能硬件等行业。客户也包括了中国南方电网、 ASUS 华硕、广发证券、印尼国家社保机构 TASPEN、墨西哥国家级贷款银行 INFONAVIT 等国内外企业与政府机构等提供技术服务。其中，印尼国家级社保机构 TASPEN 在其 2018 年 5 月上线的多重生物识别验证系统，采用了声扬科技的声纹识别和语音识别技术，用于 250 万养老金领取人的生存验证，养老金领取人在任何地方打一通电话即可完成其生存验证，省去了现场验证的舟车劳顿，社保机构也节约了大量人力物力。声扬科技也在持续推动声纹识别技术的普及。

持续攻克难题，未来不排除自研AI芯片

虽然声纹识别拥有各种各样的好处，但因为声纹使用终端和使用环境的复杂性，这就使得声纹识别也拥有很多问题需要解决。例如距离远近、语种、口音和不同使用环境和终端都会对声纹识别带来挑战，而声扬科技表示，未来会持续推进解决这些问题。

另外，从声纹识别的原理上看，需要经历提取声音特征、训练建模，打造复合声纹模型库，待辨识对象与模型库对比的过程，这就是现在火热的人工智能所专长的。声扬科技也是通过应用领先的深度神经网络（DNN）算法，研发出 Attention-based R-CNN, DPNN, DHNN 等语音底层算法，解决了长期困扰业界的语音长度要求过长、无法兼容信道差异等难题，并在此基础上开发了若干核心算法引擎，用于进行 1:1 和 1:N 声纹比对验证。

在这种运算需求下，就要求硬件，尤其是芯片方面的专用性，目前很多的语音识别厂商也推进相关的芯片自研，也是为了解决这个问题而来的。声扬科技方面表示，他们在AI芯片方面早有关注，在恰当的时候，公司也会推出自研的AI芯片，而公司也也在上面做了不少的储备。他们指出，公司的投资人兼董事高秉强教授是国际著名的大规模集成电路科学家，IEEE院士，香港工程协会院士，他会在公司未来的AI芯片计划中提供充足的支持。

公司会持续地在上面投入，推动声纹识别应用到各种场景中去，让每一个人的生活变得更好才是AI技术的终极使命。声扬科技方面强调。

半导体行业观察

最有深度的半导体新媒体，实时、专业、原创、深度，30万半导体精英关注！专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业声纹识别声扬科技AI芯片

相关数据

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息（如声音、图像和生物测量）”的函数。例如，信号处理技术用于提高信号传输的保真度、存储效率和主观质量，并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此，对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

来源：Roland Priemer (1991). Introductory Signal Processing. World Scientific. p. 1. ISBN 9971509199.

麦克风阵列技术

麦克风阵列(Microphone Array)，从字面上，指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。早在20世纪70、80年代，麦克风阵列已经被应用于语音信号处理的研究中，进入90年代以来，基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”，这项技术的重要性显得尤为突出。

来源：百度百科

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia