Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

加速精准医疗,开源GNN实现分子精准建模,质谱识别准确率提升至49%

图片

编辑丨&

非靶向代谢组学在推进精准医学和生物标志物发现方面前景广阔。由于谱图参比库的不完整,从串联质谱中鉴定化合物在当前仍是一项颇有挑战的任务。

为了应对这项挑战,德国联邦材料研究与测试研究所(BAM)与柏林自由大学的一支团队提出了 FIORA,这是一种旨在模拟串联质谱的开源神经网络。利用键的分子邻域,该模型可以学习断裂模式并推导出碎离子概率。

FIORA 不仅在预测质量上超越了最先进的碎裂算法 ICEBERG 和 CFM-ID,而且还有助于预测其他特征,例如保留时间和碰撞截面。利用 GPU 加速,FIORA 能够快速验证推定的化合物注释,并通过高质量预测大规模扩展光谱参考库。

这项研究以「FIORA: Local neighborhood-based prediction of compound mass spectra from single fragmentation events」为题,于 2025 年 3 月 7 日刊登于《Nature Communications》。

图片

FIORA

在过去的十多年中,非靶向代谢组学的进展受到高质量参考光谱稀缺的限制。2016 年的 CASMI 挑战赛显示,在注释以前未知化合物的谱图时,计算机模拟方法的召回率仅为 34%;2022 年的挑战赛中,识别率甚至没有达到 30%。

许多小队尝试从分子结构构建理论产物离子谱作为参考,以此来扩展公共光谱库。由于缺少高质量的训练数据,必须要对算法进行彻底评估,以确定它们对以前未参考或未见过的代谢物的有效性。

键解离是化合物碎裂背后的一个关键概念,因为共价键在 MS/MS 过程中被裂解,产生出现在质谱中的碎离子。计算机碎裂算法识别分子结构中的断点,并使用这些断点来估算离子概率和峰强度,最后输出模拟质谱。

图片

图 1:实验性 MS/MS 碎裂与计算机碎裂工作流程的比较示意图。(图源:论文)

FIORA 的与众不同之处在于致力于通过其局部分子邻域表达每个键裂解。这与许多最新算法中根据分子的汇总表示预测 MS/MS 谱图或完整片段集的典型方法不同。它能根据其周围的分子结构独立评估键解离事件,更直接地模拟 MS 的物理碎裂过程,其将碎片离子预测正式化为分子结构图中的边缘级预测任务。

该模型充分利用了高性能 GPU,并在其决策过程中非常强调可解释性。它可估计保留时间(RT)和碰撞截面(CCS),这为基于 MS 的化合物鉴定增加了更多维度,是光谱预测软件的真正原创补充。

与性能最好的方法 CFM-ID 和 ICEBERG 对性能进行基准测试,FIORA 学习碎裂模式相对独立于训练集和未知化合物之间的结构相似性。这确保了对真正未知结构进行建模的高度泛化性,并为光谱特征预测奠定了基础。

团队承诺,FIORA 完全开源,其可以在 GitHub 上免费获得。

相关链接:https://github.com/BAMeScience/fiora

方法概述

FIORA 的核心思想是通过预测串联 MS 碎裂过程中发生的分子键断裂来间接预测质谱。团队采用 GNN 来学习分子的隐藏表示,并将键断裂作为边缘性质预测任务。模型考虑了每个键的局部邻域,从而利用了与破译碎裂事件和离子重排相关的接近完整的化学表示。

随后,FIORA 将 MS/MS 信号建模为单键解离后预测片段产物的概率分布。通过神经网络子模块学习 RT 和 CCS 值,使用分子图嵌入,FIORA 提供了多个 MS/MS 特征维度来匹配实验数据,可用于改进化合物鉴定。

FIORA 不局限于单一模型架构,展现了多功能性。其模块化设计允许多个预测目标和轻松集成不同的深度学习架构。

对于测试拆分、MSnLib 和 CASMI 16 数据集,FIORA 预测的 MS/MS 谱图与参考测试谱图的中位余弦相似度最高,比第二名高出 10% 至 49%。这可能与图卷积网络(GCN)和关系图卷积网络(RGCN)的性能优于基于注意力的网络有关。

图片

图 2:各种 GNN 架构的光谱预测性能。(图源:论文)

演示与测试

对于与训练集具有中到高度结构相似性的化合物(Tanimoto 评分在 0.6 到 1 之间),FIORA 的预测质量保持稳定,中位余弦相似度为 0.8 及以上。当这个评分位于 0.2-0.3 时, FIORA 在推广到不熟悉的结构时性能仍然稳健。

图片

图 3:测试化合物与训练化合物的结构相似性区间的余弦相似性。(图源:论文)

FIORA 可以很好地推广到结构上不同的化合物,但 FIORA 相比于 ICEBERG 的改善不太明显。在不同化合物类别的预测中,FIORA 的预测质量更加稳定。

图片

图 4:FIORA 预测的 RT 和 CCS 奇偶校验图。(图源:论文)

作为验证手段,研究团队将 FIORA 与基于前驱体 m/z 的线性回归模型进行了比较。结果显示FIORA 的性能始终优于线性模型,尽管差距很小。绝大多数预测的误差范围在 10% 之间。

虽然目前的实施无疑受到有限碎片离子集的限制,但 FIORA 能够通过高度准确的强度预测进行有效补偿。尽管存在单步碎裂,但 FIORA 的性能仍优于最先进的方法。

团队已经证明,他们的方法不会导致化合物超类之间或结构不同的化合物之间的重大性能差异。需要注意的是,单步碎裂会抑制 FIORA 检测某些化合物的效果,这是未来改进的重要方向。

强大的预测性能

FIORA,一种创新的碎片化算法,它以多种关键方式推动了该领域的发展。通过基于局部分子邻域对键解离进行建模,片段强度预测得到了显著改善。

FIORA 还在片段强度预测水平上整合了协变量,包括电离模式、仪器类型、分子量和碰撞能量,特别是碰撞能量对峰强度的显著影响。

将正谱和负谱的训练合并到一个模型中,使算法能够从其他电离类型的碎裂模式中学习。基于这种嵌入,分子可以在化合物类和超类水平上聚集。

话虽如此,没有一种算法在各个方面都客观上优于其他算法。FIORA 覆盖的碎片集较小,呈现效果较差,但在其他方面仍代表了强度预测质量和分子结构建模方面的当前技术水平。

论文链接:https://www.nature.com/articles/s41467-025-57422-4

入门
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

余弦相似性技术

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为0到1之间。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

协变量技术

协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响实验结果。 协变量(covariate)在心理学、行为科学中,是指与因变量有线性相关并在探讨自变量与因变量关系时通过统计技术加以控制的变量。常用的协变量包括因变量的前测分数、人口统计学指标以及与因变量明显不同的个人特征等。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

推荐文章
暂无评论
暂无评论~