机器之心原创

2024/06/11 00:22

AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目标

千万种声音里，只听到你。

最近几年来，很多人都在使用降噪耳机。这种设备能让人在吵闹的环境中享受安静，安心地听音乐或工作。

通常，降噪耳机会通过内置的芯片算法对外界噪音信号进行计算，然后由喇叭发出反向声波进行抵消的方式创造安静环境。

不过安静归安静，大多数情况下人们还是需要交流的，这就带来了不小的挑战。人们曾提出过各种解决方案，比如苹果最新款的 AirPods Pro 就会自动调整，如果耳机感知到人在说话就会停止降噪，但用户是无法控制听谁说话，或何时关掉降噪的。

近日，华盛顿大学的一个团队开发了一种 AI 系统，让戴着耳机的用户看着说话的人三到五秒钟来「记录」他们。

该系统名为「目标语音听觉」（Target Speech Hearing），能驱动降噪耳机消除环境中的所有其他声音，并实时播放已记录的说话者的声音。这样一来，即使听众在嘈杂的地方走动并且不再面对说话者，也不会丢失重要信息了。

视频：https://www.youtube.com/watch?v=ArGKgodEUSo

对这种有点像碟中谍电影里的黑科技，人们纷纷表示欢迎：

也有人表示，它或许能拯救很多婚姻：

华盛顿大学团队于 5 月 14 日在檀香山举行的 ACM CHI 计算机系统人因会议上展示了他们的研究成果，还获得了大会的最佳 lunwen。概念验证设备的代码已经开源，可供他人使用。

论文《Look Once to Hear: Target Speech Hearing with Noisy Examples》：https://programs.sigchi.org/chi/2024/program/content/147319
GitHub 链接：https://github.com/vb000/LookOnceToHear

要使用该系统，佩戴配有麦克风的常规降噪耳机的人只需要点击按钮，同时将头转向正在说话的人。

然后，来自该说话者声音的声波会同时到达耳机两侧的麦克风，误差幅度为 16 度。耳机将该信号发送到板载嵌入式计算机，其中的机器学习软件会在那里学习所需说话者的声音模式。

系统会锁定该说话者的声音，并继续将其播放给听者，即使这对说话者不断变化站位，四处走动也能保持跟随。

随着说话者不断讲话，AI 系统关注注册声音的能力会不断提高，从而为系统提供更多的训练数据。

作者表示，该研究的主要贡献包括：

实现了带有噪声示例的注册网络。设计并比较了两个不同的注册网络 —— 波束形成器网络和知识蒸馏网络 —— 以使用短双耳噪声示例即可有效生成一个可捕捉目标说话人特征的嵌入向量。
实时嵌入式的目标语音听觉网络。TSH 使用生成的嵌入，随后使用 IoT 级别 CPU 上实时运行的优化网络提取目标语音。为此，研究者探索了各种模型和系统级优化，实现了在嵌入式设备上实时运行的轻量级目标语音听觉网络。
推广到现实世界的多径、HRTF 和移动性。作者提出了一种训练方法，仅使用合成数据，也可以保证系统不会被现实世界中未见过的目标干扰。
此外，该研究明确使用多路径进行训练，以推广到室内和室外环境。作者还引入了一种微调机制，可以解决移动源和听众头部方向的突然变化（高达 90°/s 的角速度），并允许系统在注册期间处理听者头部方向多至 18° 的误差。

^{具有噪声消除功能的端到端目标语音听力系统。（b）一对 Sony WH-1000XM4 耳机在各个频率下启用和不启用主动噪声消除的噪声隔离性能。低频下较大的值是由于入耳式麦克风拾取了佩戴者的声音。（c）模型推理时间的 CDF 图，包括和不包括从输出到输入的缓存缓冲区副本。}

「如今，很多人把人工智能等同于基于网络的聊天机器人，可以回答问题，」华盛顿大学保罗・G・艾伦计算机科学与工程学院教授、该研究主要作者 Shyam Gollakota 说道。「但在这个项目中，我们开发的 AI 可根据佩戴耳机的人的偏好来改变他们的听觉感知。有了我们的设备，即使身处嘈杂的环境中，有很多人在说话，你现在也可以清楚地听到单个说话人的声音。」

该团队对 21 名志愿者测试了该系统，受试者对已注册说话者声音清晰度的评分平均几乎是未过滤音频的两倍。

据介绍，这项研究建立在华盛顿大学之前的「Semantic Hearing」研究的基础上（论文《Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables》），该研究允许用户选择他们想听到的特定声音类别（例如鸟叫声或声音），并消除环境中的其他声音。

目前 TSH 系统一次只能注册一个对话人，且只有在没有其他巨大声音从目标说话人相同方向传来时才能注册说话人。如果用户对音质不满意，则可以对说话者进行另一次注册以提高清晰度。

该团队表示，在未来这样的系统可以扩展到耳塞和助听器等更多设备上。

^{参考内容：}

^{https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/}

产业Target Speech Hearing华盛顿大学

相关数据

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

助听技术

声音是由物体振动产生，正在发声的物体叫声源。声音只是压力波通过空气的运动。压力波振动内耳的小骨头（听小骨），这些振动被转化为微小的电子脑波，它就是我们觉察到的声音。内耳采用的原理与麦克风捕获声波或扬声器的发音一样，它是移动的机械部分与气压波之间的关系。自然，在声波音调低、移动缓慢并足够大时，我们实际上可以“感觉”到气压波振动身体。

来源：百度百科

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架，即通过遵循“学生-教师”的范式减少深度网络的训练量，这种“学生-教师”的范式，即通过软化“教师”的输出而惩罚“学生”。为了完成这一点，学生学要训练以预测教师的输出，即真实的分类标签。这种方法十分简单，但它同样在各种图像分类任务中表现出较好的结果。

来源：机器之心