2020/04/01 10:39

华裔教授AI解码脑电波，上演现实版「读脑术」，大脑所想直接合成文本或语音！

许多患有神经疾病的患者因丧失语言能力，需要依赖特定的通讯设备进行沟通，这类设备大多利用脑机接口或者头部、眼睛的动作来控制光标，以选择屏幕上的字母，从而拼出他们想说的句子。但是，这个蹦单词的过程，实在无法与人类的正常说话过程相比。

3 月 30 日，《自然-神经科学》发表了美国加州大学旧金山分校华裔教授 Edward Chang 及同事开发的一款脑电波 AI 解码器，能够将大脑活动信号直接转化为句子文本。

具体而言，研究人员首先通过电极记录受试者说话时的神经活动信号，并用特定语句和神经信号特征之间的关联数据训练 AI 算法，试验证明，训练后的机器翻译算法能够准确地解码受试者的神经活动，并将其接近实时地翻译为句子文本，错误率低至 3%。

从大脑“读取”人的意图

说话似乎是一件毫不费力的事，但实际上说话却是人类执行的最复杂的活动之一。十多年前，科学家首次从大脑信号中解码语言，但是一直以来，语言解码的准确性和速度远远低于自然语言交流。

目前一些用于大脑控制打字的脑机接口技术，其实依赖的是头部或眼睛的残余非语言运动，或者依赖于光标控制以逐个选择字母并拼出单词，这种方式目前可以帮助瘫痪的人通过设备每分钟输出多达 8 个单词。

但与流程自然语言交流时每分钟 150 个单词的平均速度比起来，现有技术的输出速度还是太慢了。

使用特制语音合成器与外界交流的史蒂芬·霍金理论上来说，脑机接口技术可以通过直接从大脑“读取”人的意图，并使用该信息来控制外部设备或移动瘫痪的肢体，来帮助瘫痪的人完成说话或运动。

为了获得脑机接口直接解码语言更高的精度，研究人员利用了机器翻译任务与从神经活动解码语音到的相似性。也就是说，和机器翻译类似，解码语言也是从一种语言到另一种语言的算法翻译，两种任务实际上映射到同一种输出，即与一个句子对应的单词序列。只不过，机器翻译的输入内容是文本，而解码语言的输入内容是神经信号。

于是，研究人员盘点了机器翻译领域的最新进展，并利用这些方法训练循环神经网络，然后尝试将神经信号直接映射为句子。

语言相关的神经活动解码过程具体而言，研究人员通过电极记录四名受试者他们大声读出句子时的神经活动。之后，研究人员将这些数据添加到一个循环神经网络中，从而将规律性出现的神经特征表示出来，这些神经特征可能与言语的重复性特征（比如元音、辅音或发音器官接收的指令）相关。

接着，研究人员通过另一个循环神经网络逐字解码这种算法表示，形成句子。研究人员发现，明显参与言语解码的脑区，同样参与言语生成和言语感知。通过这种机器翻译算法，研究人员在一名受试者身上进行试验，结果证明通过神经活动解码为口头句子的错误率低至 3%。

此外，如果利用某人的神经活动和言语对循环网络进行预训练后再在另一名受试者身上进行训练，最终的解码结果有所改善，这意味着这种方法在不同人员之间或许是可转移的。但是，还需要开展进一步的研究来更加完整地调查这个系统的功能，将解码范围扩展到研究所限语言之外。

脑机接口+AI 合成语音

直接通过解码大脑活动信号来合成文本或语音，不只是一项科幻般的“读心术”，更是一种颇有前景的治疗方案。

控制光标进行单词拼写，只是离散字母的连续串联，而解码语言则是一种高效的通信形式。与基于拼写的方法相比，直接语音或文本合成具有诸多优点，除了以自然语速传递无约束词汇的能力之外，直接语音合成还能捕获语音的韵律元素，例如音调、语调等。

此外，对于由肌萎缩性侧索硬化或脑干中风引起的瘫痪患者，通过直接记录来自大脑皮层的神经控制信号来合成语音，是实现自然语言高通信速率的唯一手段，也是最直观的方法。

去年 4 月，Edward Chang 等人还在 Nature 杂志发表了开发出一种可以将脑活动转化为语音的解码器。这套人类语音合成系统，通过解码与人类下颌、喉头、嘴唇和舌头动作相关的脑信号，并合成出受试者想要表达的语音。

Edward Chang 教授为了重建语音，研究人员设计了一种循环神经网络（RNN），首先将记录的皮质神经信号转化为声道咬合关节运动，然后将这些解码的运动转化为口语句子。

整个过程分为两个步骤，第一步，将神经信号转换成声道咬合部位的运动（红色），这其中涉及语音产生的解剖结构（嘴唇、舌头、喉和下颌）。而为了实现神经信号到声道咬合部位运动的转化，就需要大量声道运动与其神经活动相关联的数据。但研究人员又难以直接测量每个人的声道运动，因此他们建立了一个循环神经网络，根据以前收集的大量声道运动和语音记录数据库来建立关联。第二步，将声道咬合部位的运动转换成合成语音。

研究人员的这种两步解码方法，产生的语音失真率明显小于使用直接解码方法所获得的语音。在包含 101 个句子的试验中，听者可以轻松地识别并记录下合成的语音。

在科幻世界里，通过意念信号控制外界设备十分酷炫，实际上，在现实世界中，其背后的脑机接口技术已有近百年的历史。

随着脑机接口领域科学研究与应用技术的不断突破，尤其是 AI 算法的加持，为许多当前仍无法解答的难题提供更好了的探索工具，不仅能够帮助人类进一步了解自己的大脑，更重要的是为诊断、治疗脑部及其它严重疾病提供了解决方案，甚至广泛应用于睡眠管理、智能生活和残疾人康复等领域。

参考资料：
https://nature.com/articles/s41593-020-0608-8
https://www.nature.com/articles/s41586-019-1119-1
https://mp.weixin.qq.com/s/ZjAW1CDUli1VXpWcNnF-sQ

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

产业语音合成机器翻译AI

相关技术

大数据技术 AI基础设施 AI芯片技术

神经科学技术

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

关联数据技术

关联数据是一组用来描述用户任务运行环境以及在区域中连接用户任务方式的信息。用户任务是与用户定义的事务相关的任务，或与 CICS® 提供的事务相关的任务。CEMT 是通常由操作员启动的用户启动任务示例，CSMI 是由系统代表用户启动事务启动的任务示例。

来源：IBM