2020/04/06 11:20

快商通发明单通道电话人声分离技术，拯救呼叫中心单通道语音数据

最近，Kriston AI Lab发明了一种基于深度学习的单通道电话语音快速人声分离技术（简称“单通道电话人声分离”），破解了复杂场景下的人声分离的难题。

自声纹识别技术被推广应用以来，声纹库建设的数据来源，一直是从业者们头疼的难题。

对于金融、保险、证券、市场调研、电商等拥有呼叫中心，并会产生大量语音数据的领域来说，建设声纹库本不是难事，但受历史技术水平的限制，这些领域所存储的历史语音数据来源大多为单通道，客服与客户的声音共存在同一段音频之中，难以分割，无法发挥数据价值。

最近，Kriston AI Lab发明了一种基于深度学习的单通道电话语音快速人声分离技术（简称“单通道电话人声分离”），破解了复杂场景下的人声分离的难题，将银行、保险、市场调研等行业的呼叫中心历史语音数据变废为宝，大大降低了声纹数据库的建设门槛。

一、无需人工干预的电话信道人声分离

呼叫中心的电话语音，同时存在客服和客户两种不同的声源，如何分辨出特定人物的声音，这对于我们人类来说十分简单，但对于计算机来说，要把一个音频分割成多个不同的语音来源，却要面临很多困难。

尤其是多人声音重叠部分，分离效果差，且需要采集大量的相关音频进行单独优化，无疑是一种事倍功半的行为。

Kriston AI Lab提出的这种电话信道人声分离技术，以深度学习的方法实现数据模型训练 , 无需人工干预，便可以将单通道电话信道音频中两个不同说话人的音频进行拆分 ,分别保存，实现端到端的电话信道人声分离。

image/20200403/362a2c728a9f285b686a39b93bed2565.jpeg

二、电话信道人声分离是如何“炼”成的？

人声分离技术以深度学习技术为基础 , 构建多层RNN循环神经网络。

1、利用现实生活中电话信道双通道音频作为训练的数据集 , 将电话信道双通道音频合并为融合左通道客服音频和右通道客户音频的单通道音频作为整个模型训练的输入音频，将双通道音频直接读取的左通道音频和右通道音频作为网络训练的标签音频；

2、输入单通道融合客服和客户音频到整个网络当中 , 网络的输出结果为模型预测出来的拆分客服和客户后的左通道音频和右通道音频；

3、将模型预测拆分的左通道音频和右通道音频，与原始双通道音频读取的左通道音频和右通道音频进行损失值的计算 , 训练整个模型网络的参数；

4、当模型训练拟合之后，将模型取出，输入现实生活中电话信道单通道音频，模型输出的音频即为拆分后的左通道音频（客户）和右通道客服（客服）。

三、电话信道人声分离能发挥怎样的作用？

电话信道人声分离的最大作用，便是利用分割后的音频进行声纹库注册，以实现反欺诈、电话营销等功能。

在银行领域，客服会对逾期不还的订单进行电话提醒，从而产生大量的不还款语音数据，如果彼时该银行使用的是单通道通话，可以应用快商通电话信道人声分离技术对失信者音频进行分割。分割后的音频，便成为黑声纹库建设中历史黑产数据的重要来源。银行可进一步以黑声纹库为基础，准确识别黑名单用户，从源头上降低坏账率，完善金融反欺诈链条。

在营销方面，使用快商通电话信道人声分离技术，可以对客服外呼电话进行客户音频分割，将客户声音与会员标签、交易标签、营销标签等特征相匹配，统一由后台系统进行管理，实现高质量的电话营销。

技术日趋成熟、政策大力支持，声纹识别这种身份认证方式已逐渐被各领域所认可，但与此同时，种种实际应用问题也浮出水面，声纹库建设的数据来源便是使用者们需要跨过的首个难关。

Kriston AI Lab从客户的需求出发，推出能够解决复杂场景下的人声分离技术，为银行、保险、证券、市场调研、电商等行业呼叫中心提供了声纹库建设的可行性方案。未来，Kriston AI Lab将持续发挥国际领先的算法优势，完善声纹识别技术与产品的服务能力，推动产业链上下游共同发展。

附：Kriston AI Lab由快商通于2012年创建，专注于自然语言处理、声纹识别和大数据技术研发，现由李海洲教授牵头负责。Kriston AI Lab共申请400余项发明专利，为医疗、教育、金融、公安、智能家居等行业提供AI技术服务。

快商通

人工智能独角兽企业快商通，掌握自然语言处理、知识图谱、声纹识别、语音识别等技术的自主原创能力，通过将AI、BI引擎技术应用于客服云、销售云、营销云、安全云等产品中，赋能用户实现产业营销智能数字化升级。

产业快商通人声分离声纹识别

相关技术

深度学习机器学习自然语言生成

李海洲人物

李海洲教授现任新加坡国立大学电气与计算机工程系终身教授，同时也是澳大利亚新南威尔士大学教授、国际语音通信学会 (ISCA) 首位华人主席、亚洲自然语言处理协会 (AFNLP) 主席、亚太信号与信息处理学会（APSIPA）主席、美国电气与电子工程师学会（IEEE）音频、语音、和语言处理汇刊总编。李海洲教授在国际期刊上已发表了 500 余篇技术论文和学术论文，并多次获最佳论文奖。研究方向包括说话人识别，人声分离，语音识别、语音分析处理，信息检索、机器学习和数字信号处理等多个领域。研究成果自 2008 年起在美国国家标准与科技局年度评测中名列前茅。2018年8月，李海洲教授加入厦门快商通科技股份有限公司，担任快商通首席科学家，全面指导快商通新加坡人工智能研究院。

来源：相关新闻 Li, H.

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科