Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Nature子刊,北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

图片

编辑 | ScienceAI

今天为大家介绍的是来自北京大学信息工程学院、化学生物学与生物技术学院省部共建肿瘤化学基因组学国家重点实验室、鹏城国家实验室合聘研究员和 AI4S 平台中心主任陈语谦教授团队发表在《Nature Communications》的论文。

该团队开发了一种新型的多模态整合方法,能够实现多模态单细胞数据的整合与插补,这一成果可以促进多模态单细胞数据的分析。

图片

文章链接:https://www.nature.com/articles/s41467-024-53355-6

背景介绍

异构特征空间和技术噪声阻碍了细胞数据的整合和插补。跨模态获取配对数据的高成本进一步限制了分析。因此,迫切需要深度学习方法来有效地整合和插补不配对的多模态单细胞数据。

在此,作者设计了模态联结自编码器 Monae。Monae 联结模态之间的关系,并在特定模态中采用对比学习,增强联合空间中的细胞表示。Monae 的整合部分提供模态互补的细胞表示,插补部分利用细胞表示生成具有生物异质性的模态内和跨模态计数。

此外,额外设计的 Monae-E 是 Monae 的一种变体,支持更快收敛并提供可解释性。在各种数据集上的评估验证了 Monae 在多模态单细胞数据整合和插补中的准确性。

模型架构

Monae 是一个由自编码器构建的多模态单细胞数据学习框架,如图 1 所示。Monae 基于不同模态之间的调控关系构建一个模态联结图。图中的节点对应于特定模态中的单个独立特征。Monae 中的图自编码器学习每个节点的表示,如图 1a 所示。

在 Monae 中,不同的自编码器编码各个模态,其中的非对称网络生成对比学习中的正样本和负样本,如图 1b 所示。自适应聚类用于增强 Monae 对比学习的细胞表示,增加异质簇之间的判别性,如图 1c 所示。

从 Monae 获得图联结节点嵌入和对比学习的细胞嵌入后,后者用作多模态整合的细胞表示(如图 1d 所示)。

对于插补,Monae 将来自联合空间的细胞表示与模态联结节点特征融合以推理插补计数。对于变体 Monae-E,可以将多模态细胞作为节点添加到图 1a 中的图联结中。

Monae-E 从图自编码器获得所有节点的嵌入,包括细胞嵌入和特征嵌入,再使用细胞嵌入来替换 Monae 中非对称网络的计数输入,后续过程与 Monae 一致,如图 1e 所示。

图片

图 1:模型架构和工作流程

多模态单细胞数据整合

作者在多个数据集上评估 Monae 和基线方法,这些数据集包括配对和不配对场景。

与基线方法相比,Monae 和 Monae-E 在两个整合指标批次去除和生物异质性上表现更好,并且对不同的随机数据划分具有鲁棒性,如图 2b 所示。

为了评估数据集规模的影响,作者首先随机采样并获得不同规模的数据集子集。所有方法在子集上进行了比较,如图 2c 和 d 所示。

Monae 和 Monae-E 可以取得更好的性能。随着子集规模的增加,所有方法的表现都会得到提高。图 2e 中展示了其他数据集上的结果比较,评估标准为批次去除和生物异质性的整体得分。

图片

图 2:多模态整合基准

多模态单细胞数据的插补

RNA 模态插补对应于模态内插补。作者使用 MultiVI 以及专用于模态内插补的方法:MAGIC 和 DCA 作为基线方法,在 Muto-2021 上评估基线方法和Monae。

在图 3a 中,使用 PCA 降维插补计数,并用 UMAP 可视化,Monae 和 Monae-E 插补后的细胞簇彼此分离得更开,具有更好的判别性。评估结果如图 3b 所示,Monae 和 Monae-E 的整体性能优于基线方法。

对于跨模态插补,作者使用 scButterfly、MultiVI、JAMIE、UnitedNet 和 BABEL 作为基线。将 Muto-2021 上的 RNA 模态数据转换为 ATAC 模态。

跨模态插补的评估结果如图 3c 所示。这些结果体现出 Monae 恢复了 ATAC 模态下的生物异质性。

总体而言,Monae 和 Monae-E 翻译的图谱能够表征细胞簇之间的差异,从而促进细胞类型识别等下游任务。

同样的方式,作者评估了从 ATAC 模态翻译到 RNA 模态的插补结果。Muto-2021 上的跨模态插补的评估结果如图 3d 所示。虽然 scButterfly 表现更好,但值得注意的是,Monae 和 Monae-E 的性能接近 scButterfly。

图片

图 3:多模态插补基准

结论

在本研究中,作者介绍了 Monae,一种用于多模态单细胞数据整合和插补的深度学习方法。

Monae 的设计遵循两个动机:(1)对于整合,学习模态之间的联结关系可以促进联合空间中的对比学习并消除模态之间的差距。(2)对于插补,当前模态中缺失的信息可以通过其他模态来补充。

因此,Monae 利用整合细胞表示来生成插补计数。作者进行了基准实验,体现了Monae 在一系列数据集和场景中的表现,包括多模态整合、模态内和跨模态插补。

总体而言,Monae可以作为复杂多模态单细胞数据的综合分析的工具,其有助于了解生物系统内的细胞身份和功能状态。

代码:https://github.com/shapsider/monae

理论生物医学蛋白质北京大学Nature子刊
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~