2020/01/29 21:04

张倩、杜伟、蛋酱参与

25000个神经元，2000万个突触，谷歌等机构耗时十年重建突触级果蝇半脑

人类终于绘制出了最大的果蝇大脑连接图，还精细到了突触连接级别。

生物科学家研究基因网络，社会科学家研究社会网络，那神经科学家自然研究神经网络。研究复杂系统的「网络」是描述系统的基本方式。

长期以来，大脑神经网络的工作方式一直是一个热门研究话题，近年大热的人工神经网络也是受到大脑神经元的启发才创建的。

尝试重建大脑（使用精细的成像技术绘制大脑物理路径）是连接组学的一个方向，也是神经科学家对揭示大脑工作方式的一种探索。由于人类大脑过于复杂，研究者们尝试从果蝇等较为简单的生物入手，试图重建果蝇大脑的完整神经连接图。人类大脑有 1000 亿个神经元，果蝇大脑只有 10 万左右。

去年 8 月，谷歌宣布，他们用数千块 GPU 自动重建了果蝇大脑的完整神经图，像素高达 40 万亿。遗憾的是，当时的重建结果没有识别突触，因此算不上真正的神经图。

但就在昨天，谷歌与霍华德·休斯医学研究所 Janelia 研究园区的 FlyEM 研究团队联合发布了他们的最新进展——一个拥有突触级别连接的果蝇半脑连接图。这是迄今为止人类绘制出的最大的突触级别大脑连接图。

这个新的连接图包含 25000 个神经元、2000 万个连接，大约相当于果蝇大脑体积的 1/3，但这 1/3 影响力不容小觑。因为这些部分包含与学习、记忆、嗅觉、导航等功能相关的重要区域。

果蝇半脑的一些统计信息，绿色部分表示成像和重建的核心脑域。当前最大包含 2.5 万个神经元，它们的突触连接数量达到 2 千万。

谷歌研究科学家 Viren Jain 表示，「这将是我们第一次真正细致入微地观察突触数量达 10 万级别的神经系统的组织结构。」有了这份详尽的神经图，研究者们将能够解答大脑为何运行得如此之快。「这项研究将改变神经科学的研究方式。」

该研究进展是连接组学领域的一个里程碑。在此之前，只有一种单一生物体——「秀丽隐杆线虫（C. elegans）」的大脑曾经被如此细致地描绘。

一直以来，「连接组学」在科学界毁誉参半。支持者认为这门学问可以揭示大脑物理层面与特定行为的关系，有助于实现神经科学的关键目标；不支持的人觉得绘制神经元图耗费了大量精力，这些研究资源本应放到更重要的领域中去。

为了完成重建工作，研究者需要完成以下工作：

1. 借助显微镜获取果蝇大脑中神经元的清晰图像；

2. 借助算法将这些图像对齐并重新组合在一起形成 3D 图像；

3. 经过人工校对形成准确的重建结果；

4. 利用机器学习算法自动监测出神经元之间的突触来完成重建。

在这个过程中，每个步骤都困难重重。为了克服这些困难，研究人员已经努力了近十年。

如何获取果蝇大脑神经元的清晰图像？

由于果蝇大脑的体积与一颗罂粟种子类似，所以准确地描述出果蝇大脑中 10 万个神经元是一项非常大的挑战。此外，很多微生物学家也质疑获取果蝇大脑数据的价值。所以，描述果蝇电脑神经元及其之间的连接始终是一项难题。

首先，研究人员必须借助于显微镜来获取高分辨率的大脑图像，然后为每个神经元绘制在两个半脑中展开的神经联结。就像为人类基因组排序一样，完成相应的工作需要技术创新和大量的人力资源。

那么这样就迎来了第一项难题：如何获取果蝇大脑中每个神经元的清晰图像？

利用显微镜实现果蝇大脑及神经元成像

如下图所示，在一个安静的房间里，八台巨大的显微镜正准备生成果蝇大脑的图像。并且，图像收集的过程不受任何外力的影响。

这些显微镜原本在设计时想要几分钟或几小时内捕捉到数据。但是，如要获得完整的果蝇大脑图像，一台显微镜需要持续运行数月或数年。现在，显微镜能够连续不断地生成清晰的图像，并显示果蝇大脑中错综复杂的神经元。此外，如果出现任何故障，显微镜可以自动停止数据收集并发出 SOS 信号。

果蝇大脑图像所使用的显微镜。

在成像过程中，谷歌研究人员使用了聚焦离子束扫描电子显微镜（FIB-SEM）的技术，即通过聚焦离子束来击碎果蝇脑组织。

接着计算机程序将这些图像拼接对齐，生成果蝇大脑的 3D 展示图。

用于制作「线路图」（wiring diagram）的图像全部来自一只雌果蝇，这些图像已经收集了起来。但是，随着显微镜功能的提升，它们现在也可以从雄果蝇的大脑中收集数据了，并且是要捕捉整个中枢神经系统。

如何得到准确的重建结果？

克服半脑连接组生成中的挑战需要大量研究人员数以十年的合作研究和开发。在珍妮莉亚研究园区，研究人员曾开发出了一种新方法，为果蝇大脑染色，再将组织分割为 20 微米的厚片。接着使用聚焦离子束扫描为每个厚片生成 8x8x8nm^3 像素的立体图像。之后利用计算方法将原始数据拼接和对齐到一个连贯的 26 万亿像素的 3D 体积中。

但是，如果果蝇大脑中的神经元没有精确的 3D 重建，则基于上述类型的成像数据不可能生成连接组。

在生成半脑连接组的过程中，谷歌选择与 Janelia 研究园区的 FlyEM 团队展开合作，并专注于自动化 3D 重建以生成连接组。

经过技术的迭代发展，谷歌于 2018 年 7 月份提出了名为 Flood-filling 网络（FFN）的算法，并用于重建完整的半脑数据集。这种算法能够根据上下文图像和先验预测来决定如何扩展果蝇神经元的形状。谷歌在今日的博客中又详细描述了该网络。

在果蝇半脑数据中，利用 FFN 方法来分割或追踪神经元组成部分。

FFN 能够自动追踪果蝇大脑中的每个神经元，是首个能够给出足够准确重建结果的自动分割技术

虽然该算法大体上运行良好，但研究人员发现，当对齐效果不完美（连续切片中的图像内容不稳定）或切片和成像过程存在问题导致多个连续切片缺失时，该算法的性能会下降。

为了应对这些问题，研究人员将 FFN 网络与以下两个处理流程相结合：

其一，研究人员估计了 3D 图像各位置切片之间的一致性，然后在 FFN 追踪每个神经元时确保各位置图像内容的稳定性；
其二，研究人员使用 Segmentation-Enhanced CycleGAN（SECGAN）计算出缺失切片的重构图。

SECGAN 是一种专门用于图像分割的生成对抗网络。研究人员发现，当使用 SECGAN「想象」图像数据时，FFN 能够更加鲁棒地追踪多个缺失切片的位置。

由 FFN 算法自动给出的重建结果仍然需要人工校对，但与之前的自动重建方法相比，FFN 可以帮助研究人员节省大量时间，将校对时间从几千万缩短到几十万个小时。

校对工作由经验丰富的校对团队进行，使用的工具和工作流程都是 Janelia 研究园制定的。他们会用 VR 眼镜和定制的 3D 目标编辑工具来检查神经元形状并修复自动重建过程中出现的错误。这些修正也用于重新训练 FFN 网络，使其重建结果更加准确，从而进一步减少校对时间。

校对之后，重建结果将于自动突触检测系统相结合。首先，Janelia 的研究者手动标记单个突触，然后用这些标记数据训练神经网络分类器来将此任务自动化。经过多轮的数据标注，模型的泛化性能大大提高。

研究展望

虽然算法已经取得了很大的成功，但要绘制如此精确的神经连接图依然需要大量人力。

在神经元的追踪方面，人类在许多方面都要比算法强，FlyEM 项目工作组组长 Steve Plaza 表示。人类拥有的常识和意识可以使其识别出数据中心的异常之处。例如，对于人眼来说，比较大的连接错误是非常明显的，因此校对员可以迅速扫描大量数据，寻找严重畸形的神经元。而且，当发现一些异常情况时，他们可以进行更细致的调查。

在此之后，研究者还将不断更新这一果蝇大脑连接图。研究人员感兴趣的是，图中的神经元与大脑中的其他神经元是怎么连接在一起的。完整的连接图可能还需要数年才能重建完成。现有的数据已经提供了一些见解，也带来了一些新问题。

其中一个重要问题在于，「如何分析这个连接图并理解你所观察到的东西？」「数据已经有了，怎么用？」

研究者开始尝试用这个半脑连接图对果蝇神经系统进行更深入地研究。例如，和兴趣相关的脑部回路是中央复合体（central complex），这个区域整合了感官信息，并与导航、运动控制、睡眠有关。

果蝇大脑中央复合体「环状神经元」视图。

另一处于研究阶段的脑部回路是「蘑菇体」，主管果蝇大脑学习和记忆的功能。

除了公布研究成果，谷歌还发布了一组与研究相关的数据集和工具，相关链接可以在谷歌博客中找到。

参考链接：

http://ai.googleblog.com/2020/01/releasing-drosophila-hemibrain.html
论文链接：https://www.biorxiv.org/content/10.1101/2020.01.21.911859v1

https://www.janelia.org/news/unveiling-the-biggest-and-most-detailed-map-of-the-fly-brain-yet

入门谷歌果蝇大脑神经科学神经元

相关数据

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看，图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程，即把属于同一区域的像索赋予相同的编号。

来源：百度百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

重构技术

代码重构（英语：Code refactoring）指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。软件重构需要借助工具完成，重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中，重构需要单元测试来支持。

来源：维基百科

神经科学技术

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

CycleGAN技术

GAN的一个变种

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

生成对抗技术

生成对抗是训练生成对抗网络时，两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

来源：wiki