Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩编译

业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型

在嘈杂的环境中,人们非常善于把注意力集中在某个特定的人身上,在心理上「屏蔽」其他所有声音。这种能力被称为「鸡尾酒会效应」,是我们人类与生俱来的技能。然而,虽然关于自动语音分离(将音频信号分离为单独的语音源)的研究已经非常深入,但该问题仍是计算机领域面临的重大挑战。谷歌今日提出一种新型音频-视觉模型,从声音混合片段(如多名说话者和背景噪音)中分离出单独的语音信号。该模型只需训练一次,就可应用于任意说话者。

在《Looking to Listen at the Cocktail Party》一文中,谷歌提出了一种深度学习音频-视觉模型,用于将单个语音信号与背景噪声、其他人声等混合声音分离开来。在这篇文章中,谷歌通过计算生成视频,增强其中特定人员的语音,同时减弱其他人的声音。研究者的方法用在具有单个音频轨道的普通视频上,用户需要做的就是在视频中选出他们想要听到的说话人的面部,或者结合语境用算法选出这样的人。这种方法用途广泛,从视频中的语音增强和识别、视频会议,到改进助听器,不一而足,尤其适用于有多个说话人的情景。

这项技术的独特之处是结合了输入视频的听觉和视觉信号来分离语音。直观地讲,人的嘴的运动应当与该人说话时产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于该人。视觉信号不仅在混合语音的情况下显著提高了语音分离质量(与仅仅使用音频的语音分离相比,正如在本文中所证明的),但是重要的是,它还将分离的干净语音轨道与视频中的可见说话者相关联。


在谷歌提出的方法中,输入是具有一个或多个说话人的视频,其中我们需要的语音受到其他说话人和/或背景噪声的干扰。输出是将输入音频轨道分解成的干净语音轨道,其中每个语音轨道来自视频中检测到的每一个人。

音频-视觉语音分离模型

为了生成训练样本,我们首先从 YouTube 上收集 10 万个高质量讲座和演讲视频。然后从视频中提取带有清晰语音的片段(如没有音乐、观众声音或其他说话者声音的片段)和视频帧中只有一个说话者的片段。这样得到了大约 2000 个小时的视频片段,镜头中出现的是单个人,且说话的时候没有背景干扰。之后,我们使用这些干净数据生成「合成鸡尾酒会」——将人脸视频、来自单独视频源的对应语音及从 AudioSet 获取的无语音背景噪声混合在一起。

使用这些数据,我们能够训练出基于多流卷积神经网络的模型,将合成鸡尾酒会片段分割成视频中每个说话者的单独音频流。网络输入是从每一帧检测到的说话者人脸缩略图中提取到的视觉特征,和视频声音的光谱图表征。训练过程中,网络(分别)学习视觉和听觉信号的编码,然后将其融合在一起形成一个联合音频-视觉表征。有了这种联合表征,网络可以学习为每个说话者输出时频掩码。输出掩码乘以带噪声的输入光谱图,然后被转换成时域波形,以获取每位说话者的单独、干净的语音信号。完整细节,请参考论文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》。

多串流的基于神经网络的架构。

以下是用谷歌的方法得到的语音分离和增强的结果展示(视频见原文)。被选取的说话人之外的另一个人的声音可以被完全消去,或抑制到所需的音量级别。

为了强调该模型对视觉信息的利用,研究者从谷歌 CEO Sundar Pichai 的同一个视频中截取了不同的两部分,并将它们并排展示。在这个场景中,仅适用音频中的特征语音频率是很难实现语音分离的。然而,即使在这样富有挑战性的案例中,该模型也可以正确地分离语音。

在语音识别中的应用

该方法还有作为预处理应用到语音识别和自动给视频加文字说明的潜力。处理语音重叠的说话人对于自动的文字说明系统来说是很有挑战性的,并且将音频分离为不同的来源可以帮助生成更加准确和易读的文字说明:

谷歌认为该项技术有很广泛的应用前景,目前正在探索如何将该技术整合到谷歌的产品中,敬请期待!

论文:Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation

论文链接:https://arxiv.org/pdf/1804.03619.pdf

摘要:我们展示了一种联合音频-视觉模型,用于从声音混合片段(如多名说话者和背景噪音)中分离出单独的语音信号。仅使用音频作为输入来解决该任务难度非常大,且无法提供视频中每个说话者单独语音信号的组合。本论文展示了一种基于深度网络的模型,该模型整合了视觉信号和听觉信号来解决该任务。视觉特征用于「聚焦」场景中目标说话者的音频,以提高语音分离的质量。为了训练联合音频-视觉模型,我们引入了新型数据集 AVSpeech,该数据集包含从网页上收集的数千小时视频片段。我们展示了该方法的可应用性,它可用于经典的语音分离任务,以及热烈访问、喧嚣酒吧、尖叫孩童等现实场景,而用户只需要指定视频中的特定人脸即可。我们的方法明显优于混合语音领域中当前最优的音频语音分割。此外,我们的模型是独立于说话者的(只需训练一次,即可应用于任意说话者),生成的结果优于近期依赖于说话者的音频-视觉语音分离方法(该方法需要为每个说话者训练一个单独的模型)。

原文链接:https://research.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html

产业谷歌深度学习语音分离
1
暂无评论
暂无评论~