CVPR 2020 | 小鹏汽车提出判别性多模态语音识别
论文《判别性多模态语音识别, Discriminative Multi-modality SR》提出了一个两阶段语音识别模型。在第一阶段,通过唇动的视觉信息将目标语音从背景噪声中分离出来,使模型能够清晰地理解。第二阶段,音频模态再次结合视觉模态,通过 MSR 子网络更好地理解语音,进一步提高识别率。还有一些其他的关键贡献: 我们介绍了伪三维剩余卷积 (P3D) 为基础的视觉前端提取更多的判别性特征; 我们用时域卷积网络 (TCN) 将时域卷积块从 1D ResNet 升级到更适合于时域任务的时域卷积网络 (TCN); MSR 子网络建立在元素智能选通递归单元(eleat - gru) 的顶部,在长序列中比 Transformer 更有效。我们在 LRS3-TED 和 LRW 数据集上进行了大量的实验。我们的两阶段模型 (音频增强多模态语音识别,AE-MSR) 始终以显著的优势实现了最先进的性能,这证明了 AE-MSR 的必要性和有效性。