英文题目:Robust Mask Estimation by Integrating Neural Network-based and Clustering-based Approaches for Adaptive Acoustic Beamforming.
作者:Ying Zhou, Yanmin Qian.
摘要:
基于隐蔽值(mask-based)的波束形成(beamforming)方法现在在多通道噪声鲁棒自动语音识别研究中受到了广泛的关注。在已有的 mask 估计模型中,基于神经网络 mask 估计方法有较好的性能,但是这种方法由于需要仿真的数据进行训练,因此在真实应用场景下存在着训练与测试不匹配的问题。本文针对这个问题,提出了一个新的非监督框架,利用复数混合高斯模型(CGMM,Complex Gaussian mixture model),估计真实无标签数据的软标签,使得真实数据可以用于 mask 神经网络的训练;除此以外,利用复数混合高斯模型,本文将说话人自适应技术从后端的声学模型建模引入到基于 mask 估计的波束形成技术,实现了一个说话人相关的波束形成技术。我们提出的方法在 CHIME-4 数据集上进行了验证,实验结果可以发现,在真实带噪的测试条件下,语音识别性能有明显提升,这种基于非监督方法的神经网络 mask 波束形成技术可以显著减小训练与测试的不匹配问题。
研究背景:
近些年来,研究发现波束形成技术作为前端信号处理技术可以有效的提高 ASR 系统在真实远场麦克风阵列场景下的性能。传统的波束形成方法通常依赖于一些并不准确的先验知识,例如麦克风阵列的几何结构以及平面波假设等,而基于时频点 mask 估计的波束形成技术由于不需要这些额外的信息,因此在近两年来被广泛研究。这种波束形成技术最重要的部分在于时频点 mask 的估计,现有的 mask 估计方法中,基于神经网络的 mask 估计方法有较好的性能,但是它存在着训练与测试的不匹配的问题。这种不匹配的问题主要产生于两个方面:1. 由于神经网络 mask 需要使用仿真数据进行训练,但是应用在真实场景下,因此会存在仿真数据与真实数据的不匹配问题;2.. 训练与测试的声学背景不一样,例如训练数据与测试数据的说话人以及背景噪声的不匹配。针对这两个不匹配的问题,我们引入采用了非监督训练的复数混合高斯模型,分别对神经网络 mask 进行训练以及自适应。本文提出的框架一方面将真实的训练数据引入到 mask 神经网络的训练中,减小了仿真与真实数据的不匹配;另一方面,由于自适应技术引入,可以实现说话人相关的波束形成技术,针对特定的说话人得到更好的多麦降噪效果。
基于 mask 的波束形成技术:
下图给出了基于 mask 的波束形成框架,首先利用 mask 估计器从多通道原始带噪语音中估计语音与噪声的 mask,利用估计的 mask 与原始的带噪多通道语音分别计算语音与噪声的协方差矩阵,最后将其应用到波束形成技术中。
其中常用的 mask 估计器分为两类,一类是采用聚类的方法,例如复数混合高斯模型(CGMM),这种方法是非监督的,假设信号的每个频点可以聚成包含语音以及只噪声两类,利用一个含有两个高斯分量的复杂混合高斯模型来对多通道数据的频域分布进行聚类,其中在每个时频点上每类的后验概率即为估计所得的 mask;另一类是采用神经网络的方法,目前最常用的神经网络结构为双向长短时记忆(BLSTM)网络结构,每个通道分别估计一个 mask,然后使用中值操作将多通道的 mask 合并为单通道 mask。
真实训练数据增加及非监督自适应神经网络 mask 估计框架:
在本文中,我们提出了一套将复数混合高斯模型引入神经网络 mask 估计的框架,来解决神经网络 mask 所带来的不匹配问题。这一框架包括真实训练数据的增加与非监督说话人自适应。
针对神经网络 mask 估计的第一种不匹配问题,即仿真与真实场景的不匹配,本文在 mask 神经网络训练阶段引入了真实的训练数据,如左上图所示。对于仿真的训练数据,mask 标签由带噪信号对应的干净语音与噪声分别计算得到;对于真实的带噪训练数据,其训练的 mask 标签由复数混合高斯模型估计得到。
针对神经网络 mask 估计的第二种不匹配问题,即声学背景的不匹配,本文主要借用了在声学模型上常用的说话人自适应技术。如右上图所示,针对特定的说话人,利用其部分说话人自适应数据,将说话人非监督自适应技术应用到 mask 估计网络中。其中非监督自适应技术的第一遍估计结果由复数混合高斯模型得到,紧接着,可以利用估计所得的 mask 做不同的说话人自适应。本文调研了三种常用于声学模型训练的说话人自适应技术:1. 重训练技术,对特定说话人利用估计所得的 mask 对整个神经网络进行微调;2. 输入线性网络,对特定说话人在输入层增加一个线性变换;3. 学习隐层单元贡献,对特定说话人在每个隐层输出单元上加入一个幅值控制参数,其中后两种说话人自适应技术都引入了说话人相关的参数,在自适应的阶段,保持原有的 BLSTM 网络参数不变,只更新这些说话人相关的参数。
实验:
我们在 CHIME-4 数据集上验证本文所提出的方法,为了对比不同的 mask 估计方法,我们采用的相同的广义特征值波束形成(GEV)方法以及相同的后端 ASR 系统进行验证。下图所示为实验的参照系统,其中 BLSTM 神经网络 mask 都是有仿真数据训练得到的,对于神经网络 mask 的训练目标,我们采用了两种不同的 mask,分别为理想二值 mask(IBM) 和比值 mask(IRM)。
上图展现了利用 CGMM 得到真实带噪数据标签之后引入真实数据进行训练的实验结果,可以发现引入真实训练数据对 real 集的效果很好,而对 simu 集稍差,原因在于引入 real 的训练数据实际上是增加了与 simu 测试条件的不匹配。这也从另一方面说明引入真实数据进行训练可以有效的减少训练仿真数据与测试真实数据的不匹配问题。同时,可以看到 IRM 的实验结果与 baseline 一样比 IBM 好,因此接下来的自适应实验均采用 IRM 进行模型训练。
上图展现了利用三种不同方法进行自适应的结果,retraining 技术稍差,另外两种引入了说话人相关参数的自适应方法又进一步降低了几乎所有集合的识别错误率。经过这两个方法优化之后最终得到最好的结果比原始提出的参照模型的第二条(BLSTM-IBM)系统有了将近相对将近 15% 的提升。
上图是探究前端 mask 神经网络的自适应与后端声学模型的自适应是否会有相互影响,实验结果表明即使前端做了说话人自适应,后端声学模型的自适应仍旧有效,也可以进一步降低识别错误率。
结论
我们提出的与复数混合高斯模型结合的神经网络 mask 估计框架,由于引入了真实的训练数据可以有效减小仿真与实际环境的不匹配情况,并且由于加入了说话人自适应技术,可以针对特定的说话人得到更好的多麦降噪以及识别效果。