Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

参与张倩 郑丽慧 李泽南

这一次,脑机接口可以实时读取人类脑中画面了?

由俄罗斯脑机接口公司 Neurobotics、莫斯科物理技术学院(MIPT)研发的一种全新脑机接口算法最近被公之于众,它可以利用人工神经网络和脑电图将人类大脑中的图像实时显示在计算机屏幕上。

由俄罗斯脑机接口公司 Neurobotics、莫斯科物理技术学院(MIPT)研发的一种全新脑机接口算法最近被公之于众,它可以利用人工神经网络和脑电图将人类大脑中的图像实时显示在计算机屏幕上。而且,与马斯克脑机接口公司研发的「大脑缝纫机 」不同,这种脑机接口无需开颅植入电极,在临床和日常生活中应用更加广泛。

一位被试正在使用该脑机接口。右下角是被试观看实时画面,右上角是通过脑机接口重建的画面。


今年 7 月,Facebook 与加州大学旧金山分校(UCSF)有关脑机接口实时读取人类语言的研究刚刚登上《Nature》子刊,其快速解码的机器学习算法效果令人惊叹。


现在看来,我们不仅有望实现「意念打字」,或许还可以使用人眼这一「精度超高」的摄像头来进行录像,实现科幻影视作品描绘的图景。不过,这篇莫斯科物理技术学院的论文还没有经过同行评审。

英剧《黑镜》一集中的男主角过海关时被要求回放自己通过某种设备肉眼录下的视觉记忆。


对于研究者来说,新成果使得构建由脑信号控制的中风后康复装置成为可能。研究团队在 bioRxiv 上发表了相关研究论文,还发布了一段他们「读心」系统的效果视频。虽然画面比较模糊,但我们依然可以分辨出画面中的大致场景类别(如人、瀑布、车景)。

视频中原始图像和神经网络处理 EEG 信号重建的图像对比(由于版权原因,人像原图被替换了)。



为了构建这一设备,神经生物学家需要理解大脑如何编码信息。其中一个关键方面是,研究人们在观看视频时感知视觉信息的大脑活动过程。


现有的解决方案是,要么使用功能磁共振成像来提取观察到的图像,要么通过植入物直接分析来自神经元的信号。两种方法在临床和日常生活中的应用都非常有限。


俄罗斯研究者开发的这种脑机接口依赖的是人工神经网络和脑电图(EEG),后者是一种可以通过非侵入式电极(无需手术植入)记录脑电波的技术。通过分析大脑活动,该系统可以实时重现人类看到的图像。


「我们正在进行国家技术计划(National Technology Initiative)神经网络辅助技术项目,该项目致力于构建一种脑机接口,让中风患者控制手臂外骨骼、瘫痪患者驾驶电动轮椅等,最终目标是让健康的人也能提高神经控制的准确率,」MIPT Neurorobotics 实验室负责人 Vladimir Konyshev 表示。


技术细节


该脑机接口的构建实验共分为两个阶段。


在第一阶段,神经生物学家让健康的人观看一些 10 秒的 YouTube 视频片段,总共 20 分钟。研究团队随机选择了 5 个视频类别:抽象形态、瀑布、人脸、移动的装置和汽车运动。
通过分析脑电图数据,研究者发现,每一类视频的脑电波是不同的。这使得研究小组能够实时分析大脑对于视频的反应。


在实验的第二阶段,研究者从五个类别中随机选择了三个类别并开发了一个本地反馈(native feedback)模型,反馈模型的核心思想是将脑机接口分类器的预测结果以自然图像的形式呈现出来,而且要尽可能与实际观察到的图像接近。


该模型分为两个神经网络:一个用于从「噪声」中生成随机特定类别图像,另一个根据脑电图生成类似的「噪声」。接下来,该团队训练这两个网络协同工作,将脑电图信号转换为与被试观看内容相似的实际图像。


论文中提到的本地反馈模型如下图所示。

图 2:本地反馈模型的总体方案。



将降维后得到的 20 维脑电图特征向量映射到预先训练好的图像自编码器的潜在空间中,这个自编码器能够重建几个预学习类别的自然图像。图像解码器不依赖于任何神经生理学数据,仅考虑一组刺激图像即可进行预训练。特征映射器是单独训练的,因为它既需要脑电图特征库,也需要一个训练好的图像解码器。


图像解码器


图像解码器(ID)是图像到图像卷积自编码器模型的一部分。编码器部分基于预训练的 VGG-11 模型。解码器部分由全连接输入层组成,用于维度增强,然后是 5 个解卷积块,每个解卷积块包含一个解卷积层,然后是 ReLU 激活。最后的解卷积块包含双曲正切激活层。解码器生成 192×192×3 维的彩色图像(见图 3a)。

图 3. 图像解码器.a)模型结构;b)常规训练


除了图像重建之外,解码器还有一个特定的潜在空间分布。他们通过引入一个图 3(b)所示的训练过程来解决这个问题。


脑电图特征映射器


脑电图特征映射器的目标是将脑电图特征域的数据转换成图像解码器潜在空间域。在理想状态下,观察到的图像和此时的脑电图记录最终会转换为同一个潜在空间矢量图,因此解码器能够根据刚才看到或想象的场景去生成一个正确的视觉图像。


另一个问题是如何应对嘈杂的数据:由于存在未检测到的伪像,或者被摄对象分散注意力,实时记录场景中的脑电图信号属性可能会发生显著变化。此时反馈系统应避免出现混乱的图像切换,以免给观察对象太多的压力。


人类脑中的图像是连续数据,所以使用循环神经网络就变得顺理成章了——新的算法使用了 LSTM 组件作为循环单元。此外,研究人员还整合了注意力机制


图 4,脑电图特征映射。a)模型结构;b)训练方法。



测试结果


为了测试该系统呈现头脑活动的能力,研究者选了一些同一类的以前看过的视频。正如他们看到的那样,脑电图被记录下来,然后反馈给神经网络。系统通过了测试,生成了具有可信度的图像,90% 都可以很轻松地进行分类。


和大多数 AI 算法一样,研究人员提出的神经网络模型是用 Python 实现的,运行的计算机也只需普通台式机:英特尔 i7 处理器,英伟达 GeForce 1050Ti 显卡。在读取的过程中,算法可以处理每秒 3 帧图像。通常,在分类上约有 90% 的重建图像是可识别的程度。


「此外,我们可以把这个当作实时脑机接口的基础。在当前的技术条件下,Elon Musk 那样的侵入式接口存在手术性质复杂和快速退化的问题——基本上几个月内就失效了。我们希望可以最终设计出更实用也不需要植入的神经接口。」研究者补充道。

论文:
https://www.biorxiv.org/content/10.1101/787101v2
参考内容:
https://techxplore.com/news/2019-10-neural-network-reconstructs-human-thoughts.html
理论脑机接口
11
相关数据
VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

Elon Musk人物

伊隆·马斯克(Elon Musk)是一名美籍和加籍企业家,出生于南非。作为SpaceX、特斯拉和PayPal的创始人而闻名。

所属机构
推荐文章
众能联合数字技术有限公司・AI算法工程师
脑机接口这是一个方向,但是我认为每个人表达一样的东西,其脑部活动一定是有极大差异的,应该反过来,机器具有相同的输入输出,由人脑去学习去适应,就像小孩子学习控制自己的手一样。