编辑 | 萝卜皮
空间组学技术以细胞和亚细胞分辨率解析复杂器官的功能组件。
山东大学的研究团队引入了空间图傅里叶变换 (Spatial Graph Fourier Transform,SpaGFT),并将图信号处理应用于各种空间组学分析平台,以生成可解释的表示。
这种表示支持空间可变基因识别并改进基因表达推断,在分析人类和小鼠空间转录组数据方面优于现有工具,效率是现有工具的百倍。
SpaGFT 可以识别人类淋巴结 Visium 数据中 B 细胞成熟的免疫区域,并使用内部人类扁桃体 CODEX 数据表征次级滤泡的变化。
此外,它可以无缝集成到其他机器学习框架中,将空间域识别、细胞类型注释和亚细胞特征推断的准确性提高多达 40%。
值得注意的是,SpaGFT 在高分辨率空间蛋白质组学数据中检测稀有亚细胞器。这为探索组织生物学和功能提供了一种可解释的图形表示方法。
该研究以「Graph Fourier transform for spatial omics representation and analyses of complex organs」为题,于 2024 年 8 月 29 日发布在《Nature Communications》。
空间组学技术通过细胞和基因双重视角,全面解析组织内的分子景观,涵盖基因组到蛋白质组等多个层面。经典方法中,以细胞为中心的方法主要研究细胞组成与互动,以基因为中心的方法则关注基因表达的空间变异性。
相比经典统计方法,基于图的方法可以整合这两种视角,用节点表示细胞,边表示空间或功能联系,通过图信号编码分子特征,提升分析的可解释性。现有基于图的机器学习方法存在「黑箱」问题,需要更通用的图信号表示框架来揭示复杂关系。
为了解决这些问题,山东大学的研究人员提出了空间图傅里叶变换( Spatial Graph Fourier Transform,SpaGFT),这是一种分析特征表示方法,用于编码平滑图信号来表示组织和细胞内的生物过程。它将图形信号处理技术和空间组学数据连接起来,支持各种下游分析并促进有洞察力的生物学发现。
图示:SpaGFT 用于空间组学表示的架构。(来源:论文)
功能与性能
SpaGFT 框架提供了图信号转换和七个下游任务:SVG 识别、基因表达归纳、蛋白质信号去噪、空间域表征、细胞类型注释、细胞斑点比对和亚细胞界标推断。
它消除了对预定义表达模式的需求,并显著提高了计算效率,这在 31 个人/小鼠 Visium 和 Slide-seq V2 数据集的基准测试中得到了证明。
SpaGFT 在识别 SVG 方面的表现优于其他工具,效率是其他工具的百倍。研究人员还强调了他们手动整理的 458 个小鼠和人类大脑基因作为接近优化的标准 SVG。
图示:SVG 识别和空间组学特征归纳的性能。(来源:论文)
这将带来基于真实人/鼠数据的替代评估指标,它是对基于模拟的评估方法的补充,例如 BSP60、SPARK-X、SpatialDE、SPARK、scGCO 和其他基准测试工作。
此外,实施低通滤波器和逆 GFT 可以有效地推断低表达基因表达并去除高噪声蛋白质强度,从而实现更精确的空间域预测,如人类背外侧前额叶皮质所展示的那样。
值得注意的是,SpaGFT 通过实现更准确的机器学习预测,促进了空间组学数据的解释。
它在空间域识别的准确性、从细胞类型到斑点的注释转移的较低错误、细胞到斑点比对的正确性以及亚细胞标志推断的验证损失方面显著提高了现有框架的性能 8-40%。
价值与意义
从计算的角度看,SpaGFT 和 scGCO 是空间组学数据分析的两种图形表示方法,前者侧重于组学特征表示,后者侧重于 SVG 检测。scGCO 采用图切割的方法对组织进行分割,并比较分割与基因表达之间的一致性,以支持 SVG 检测。
SpaGFT 使用图傅里叶变换来寻找新的潜在空间来表示基因表达并实现各种下游任务,包括但不限于 SVG 识别、基因表达增强和功能组织单元推断。
此外,将 SpaGFT 应用到现有的可解释空间多模态框架(如 UnitedNet、MUSE 和 modalities-autoencoder)中也具有很好的潜力。
以 UnitedNet 为例,它采用可解释的机器学习技术来剖析训练有素的网络并量化不同模式下特征的相关性,特别是研究特定于细胞类型的关系。
图示 :SpaGFT 针对三个以细胞为中心的工具实现,该图由四列组成,每列对应空间组学分析、计算公式、优化示例工具中的 FC 实现以及性能评估。(来源:论文)
为了给 UnitedNet 带来更多的空间洞察力,SpaGFT 可以提供 (1) 增强特征和 (2) 可解释的正则化器。为了生成增强空间组学特征,SpaGFT 可以首先计算顶点域中的细胞-细胞关系(例如,从 H&E 特征、基因表达或蛋白质强度计算),并将关系转换为 FC,FC 编码和量化细胞-细胞变异模式,可将其视为 UnitedNet 的输入之一。
关于将 SpaGFT 实现为可解释的正则化器,可以将扩散熵引入到 UnitedNet 的重建损失函数中,因为 UnitedNet 具有编码器-解码器结构。
通过在傅里叶域上对编码和解码的空间组学特征的熵进行正则化,可以引导 UnitedNet 学习呈现低频信号的空间组织区域(例如,具有特定模式和功能的一个功能组织单元)。这些增强对于使用可解释的正则化深度学习框架来表征复杂的生物结构至关重要,包括识别稀有的亚细胞器,从而对细胞机制提供更深入的了解。
仍有提升空间
然而,在预测性能和理解FTU机制方面仍有提升空间。
首先,SpaGFT在频域中讨论了低频信号,但缺乏对中高频信号的讨论。虽然先前的研究表明大多数功能相关的生物信号出现在低频区域,但在中频和高频区域也发现了某些特殊信号。因此,在未来的研究中,研究人员可能会更多地关注多频信号的解释。
其次,尽管SpaGFT 的计算速度非常具有竞争力,但可以通过使用快速傅里叶变换算法将计算复杂度从 O(n^2) 降低到 O(n×log(n)) 来进一步提高。
第三,点图和 FTU 拓扑的改变代表着在来自不同组织或实验的空间样本中识别 FTU 的潜在挑战,这会导致 FM 空间不同并使得 FC 无法比较。
这类似于多个单细胞 RNA 测序 (scRNA-seq) 整合分析中的“批次效应”问题。解决这一挑战的一个可能方法是使用机器学习框架(例如最优传输)将空间数据点嵌入并对齐到固定的拓扑空间。另一种可能性是使用 H&E 图像作为所有图像的共同参考,以使嵌入组织具有感知能力。
第四,在 CODEX 图像上实施 SpaGFT 依赖于专家的知识来预先选择功能区域。分析多路复用图像的未来方向是开发一个拓扑学习框架,基于 SpaGFT 特征表示自动检测和分割功能对象。
总的来说,该研究的价值在于为空间组学建模中可解释的人工智能带来另一种视角,包括多分辨率空间组学数据集成和跨时空数据的模式分析。
相关报道:https://www.nature.com/articles/s41467-024-51590-5