2022/09/06 11:29

Interspeech 2022 | 基于频-时调制谱的改进型窄带滤波网络用于实时单通道语音去噪和去混响

摘要：

本文由阿里巴巴钉钉蜂鸣鸟音频实验室（HummingbirdAudioLab）与西湖大学音频信号与信息处理实验室合作，提出了一种基于频-时调制谱的改进型窄带滤波网络（spectro-temporalSubNet，STSubNet），在保留之前提出的窄带滤波网络（SubNet）对于语音去噪优势的前提下，进一步提升实时的单通道去噪和去混响联合语音增强效果。

在每个频带里，为了得到足够丰富的频-时调制谱感受区（spectro-temporal receptive fields，STRFs），我们提出基于二维卷积网络与双向频域方向的长短期记忆网络组成的频-时调制谱感受区提取方法，以提高窄带滤波网络对于想保留的语音部分和想去除的干扰部分（噪声和混响）的鉴别力，并能在同一模型下同时进行去噪和去混响功能。在两个公开的测试集里，相比于SubNet，STSubNet方案得到更好的实时单通道语音增强效果，并对齐于目前最高水平的（state-of-the-art）其他模型方法。

样例试听：

链接: https://pan.baidu.com/s/1m_v81u3WWunXSMq9K0ZKRQ 提取码: puqf

研究目的：

近年来，使用深度学习监督下的语音增强技术收到了极大的关注。训练数据的可用性和丰富性，以及深度神经网络架构实时性的进步，使深度学习框架提供了比传统去除干扰声的方法更高效的性能。

尽管这几年这个研发方向有着巨大的创新和改进，实时语音增强技术仍存在很大的现实挑战，包括但不限于不同类型噪音的消除，混响的消除，计算量能否降低，算法延迟能否减小，模型大小能否用于不同端侧等等。

不同于经典的以全频带语音信息作为输入的神经网络框架，窄带滤波网络（SubNet）专注于每个频带信息作为输入，并让每个频带共享网络参数。其原理在于基于本地频谱模式下提取的频带的信号特征能否有效的区分开语音和非语音信息。

为了进一步提高窄带滤波网络效能，本质上是如何提高输入的频带信息对于语音和非语音的鉴别力（discrimination）。受到听觉处理研发方向的启发，即哺乳动物听觉感知系统对于声音的特征值提取在于频-时调制谱感受区（STRFs）的感知，听觉感知神经突触的触发对应特定感受区里面的调制信息，本文提出一种更高效地提取STRF的信息的方法用作窄带滤波网络的输入以提高窄带滤波网络对于消除噪音和混响的效能。

具体来说，对于每个频带，为了得到足够丰富的频-时调制谱信息，一个二维的卷积网络被用于去提取特定频-时调制谱信息。由于每个频带对于不同频-时调制谱信息敏感度不同，为了扩展STRF的频谱维度的提取以及避免使用过多不同的二维卷积网络，一个双向频谱方向的长短期记忆网络被用在二维卷积之后。

特别指出的是，不同于之前窄带滤波网络只用于去噪功能，本文提出的STSubNet会在一个模型里同时达到去噪和去混响功能，而且我们认为窄带滤波网络可能对于去混响更适用，因为混响效应本身是在不同频带发生的，相较于全频带输入，对于每个频带的输入，窄带滤波对于混响的泛化性会得到进一步提高

研究方法：

上图概述了我们提出的STSubNet的去噪去混响的架构：

Ø短时傅立叶变换STFT框架下的实时语音处理

Ø网络结构，即STRF提取（二维卷积网络+双向频谱方向的长短期记忆网络）+窄带滤波网络SubNet，网络输出为复数域的掩码（mask）

ØLossfunction为时域里的signal-to-distortion ratio (SDR) loss，通过我们的消融实验验证此损失函数比常用的scale-invariant SDR (SI-SDR) loss 或 mean square error (MSE) 都要好

Ø实时推理onlineinference，通过一个递归函数来实时得到频谱归一化的均值

Ø网络参数的设定以及对于网络大小，计算量的影响

（上述表格的计算量是在Intel Xeon CPU E5-2682 v4 (2.50 GHz)运行得到的）

实验：

为了充分理解本文提出的STRF频-时调制谱感受区对于窄带滤波网络的改善，根据数据集NOISEX92和REVERBchallenge，我们仿真出了6组不同的噪音测试集和6组不同的混响测试集；训练集是用DNSchallenge提供的公开的干净语音数据，噪音数据，以及基于imagemethod生成的空间冲击响应（roomimpulseresponses）生成出的。频谱计算用到了future一帧，即向前看一帧，并保证算法的总延迟不超过40ms。

上述实验结果表明，双向频谱方向的长短期记忆网络（biLSTM）对于STRF频-时调制谱感受区信息的提取至关重要。时调制谱维度的增加对于去噪效果影响不大，但对于去混响相对来说重要的多。

为了验证所提方案的去噪和去混响实际效果，测试集用了DNSchallenge的噪声测试集，并跟state-of-the-art 方法对比，以及REVERBchallenge的混响真实录音测试集，并跟state-of-the-art 方法对比。

样例试听：https://github.com/ffxiong/stsubnet

结论：

为了进一步提升窄带滤波网络SubNet的效能，本文提出了基于频-时调制谱的改进型窄带滤波网络STSubNet。在充分分析频-时调制谱感受区提取对于窄带滤波网络提升的前提下，实验结果也验证了STSubNet在窄带滤波网络基础上性能有了大幅改善。对比于目前state-of-the-art 方法，STSubNet不仅能有效进行去噪和去混响两个功能的同时实现，并在很小的网络参数量的情况下达到有竞争力的语音增强表现。

注：钉钉蜂鸣鸟音频实验室，旨在用传统信号处理结合深度学习算法，来解决实时语音通信碰到的复杂问题，提升钉钉会议、直播以及生态会议硬件的产品体验，并探索下一代音视频形态。其重点研究方向包括音频3A算法、单通道/多通道语音增强、声源定位等。

理论