千万种声音里,只听到你。





论文《Look Once to Hear: Target Speech Hearing with Noisy Examples》:https://programs.sigchi.org/chi/2024/program/content/147319 GitHub 链接:https://github.com/vb000/LookOnceToHear
实现了带有噪声示例的注册网络。设计并比较了两个不同的注册网络 —— 波束形成器网络和知识蒸馏网络 —— 以使用短双耳噪声示例即可有效生成一个可捕捉目标说话人特征的嵌入向量。 实时嵌入式的目标语音听觉网络。TSH 使用生成的嵌入,随后使用 IoT 级别 CPU 上实时运行的优化网络提取目标语音。为此,研究者探索了各种模型和系统级优化,实现了在嵌入式设备上实时运行的轻量级目标语音听觉网络。 推广到现实世界的多径、HRTF 和移动性。作者提出了一种训练方法,仅使用合成数据,也可以保证系统不会被现实世界中未见过的目标干扰。 此外,该研究明确使用多路径进行训练,以推广到室内和室外环境。作者还引入了一种微调机制,可以解决移动源和听众头部方向的突然变化(高达 90°/s 的角速度),并允许系统在注册期间处理听者头部方向多至 18° 的误差。
