Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

脑机接口可以将我们的思想直接翻译成文本吗?

你曾经有没有想过要是有一个设备能够将你的想法解码成真实的语音或是书面文字的话会怎么样呢?或许这会增强现存的一些设备语音接口的性能,可能会引起语言病理学上的变革,尤其是对于那些没有语言和运动能力的「闭锁综合症」患者来说更是如此。


《人类神经科学前沿》中一篇评论的作者Christian Herff说道:「所以,我不需要去问『Siri,今天的天气怎么样』或者是『Google,我可以去哪儿吃午饭』,只需要想象我在说这些话就可以」。


读取某人的想法或许还只是存在于科幻小说当中,但是科学家已经可以将我们在说话或者是聆听时大脑中的信号进行解码,生成语音。


Herff 和他的合著者Dr. Tanja Schultz在他们的综述当中,比较了在大脑中使用各种脑成像技术捕捉神经信号,并将其解码为文本的利与弊。


这些技术包括功能性磁共振成像(MRI)、近红外成像(能够根据神经元的代谢活动检测到神经信号)、脑电图(EEG)和脑磁图(MEG)(能够检测到与语音相对应的神经元的电磁活动)等。特别是一种叫做脑皮层电图描记法(ECoG)的方法,在Herff的研究之中展现出了很大的发展前景。


这项研究提出了一种大脑到文本(Brain-to-text)系统,这种系统在已经植入了电极网格以便治疗的癫痫病人参与者身上进行了实验。他们将他们面前的屏幕上的文本读出来,同时他们的大脑活动将被记录下来。这就形成了可以将语言音素(或者说是「语音」)与神经信号模式匹配起来的数据库的基础。


当研究者们将语言和词典的模型都运用到了算法当中时,就可以高度精确地将神经信号解码成文本。Herff说道,「这是我们第一次证明可以在大脑信号当中使用自动语音识别(ASR)技术,将大脑活动进行足够准确解码。但是从现在对植入电极的需求可以看出,这项技术还需要很长的时间才能被运用到日常生活当中」。


因此,这个领域要是想从现在发展到一个可正常工作的思维检测设备要怎么做呢? Herff说道:「第一个里程碑应该是要将想象的短语从大脑活动中解码,但是我们还有很多的技术问题有待解决。」

这个研究的结果虽然非常令人激动,但对于这类型的脑机接口研究来说还只是处于初步阶段。


摘要:语音接口目前已经被广泛接受,并且被运用于很多真实生活中的应用和设备当中,它们已经成为了我们日常生活中的一部分。尽管我们认为语音接口能够生成可以理解的语音,但是由于嘈杂的环境、吵闹的旁观者或者是使用者不能说话(比如说患有闭锁综合症的患者),这种能力就会从可能变成不可能。出于这些原因,想象出说话的场景要比真实说话更加可取。基于想象语言的语音接口不需要听得见的声音就能够进行快速、自然的交流,这让因为各种情况不能说话的人都有了发声的机会。这份焦点评述分析了不同的脑成像技术使用自动语音识别技术来识别神经信号中语音的潜力。我们认为基于代谢过程的方式,比如说功能近红外光谱成像和功能性磁共振成像技术,因其低分辨率不适合神经信号的自动语音识别,但在研究语音过程的神经机制中却非常有用。相反,电生理活动能够快速捕捉语音过程,也更适宜运用到自动语音识别当中。我们的实验结果也证明了这些通过无创测量大脑活动(脑皮层电图描记法)产生的信号在神经数据语音识别上的潜力。作为使用神经信号自动语音识别技术的第一个实例,我们对大脑到文本(Brain-to-text)系统进行了讨论。

Synced (258).jpg

图 1. ECoG 和音频数据同时被记录下来。然后语音解码软件被用于确定声学数据中元音和辅音的时间。然后 ECoG 模型通过计算所有与特定音素(phone)有关联的片段的均值和协方差而为每个音素单独接受训练。

Synced (132).jpg

图2. Brain-to-text 系统的解码过程。Broadband gamma power 被提取出来用于 ECoG 数据的短语。然后通过结合 ECoG 音素模型的知识、词典和语言模型解码出最有可能的词序列。

产业脑机接口神经科学理论语音识别
暂无评论
暂无评论~