Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

融合图神经网络与无监督语言模型,对RNA-蛋白质相互作用精准预测

图片

编辑丨&

在遇到未知的蛋白质与 RNA 时,通常不易准确的计算测定 RNA-蛋白质相互作用。RNA 的有限数量及其灵活性限制了深度学习模型用于 RNA-蛋白质相互作用预测的有效性。

华中师范大学物理研究所对此有全新的研究成果。研究者与美国华盛顿大学和达特茅斯学院进行合作,推出了一种名为 ZHMolGraph 的模型,它集成了图神经网络和无监督大型语言模型来预测 RNA-蛋白质相互作用。

他们在两个基准数据集上验证了 ZHMolGraph 的预测,并超越了当前的最佳方法。对于完全未知的 RNA 和蛋白质的数据集,ZHMolGraph 显示,在实现 79.8% 的高 AUROC 和 82.0% 的 AUPRC 方面有所提高。

这些增强功能使 ZHMolGraph 成为全基因组 RNA-蛋白质预测的可靠选择。ZHMolGraph 在建模和设计 RNA-蛋白质复合物方面具有广泛的潜力。

他们的研究以「RNA-protein interaction prediction using network-guided deep learning」为题,于 2025 年 2 月 16 日刊登于《Communications Biology》。

图片

RPI 网络

RNA-蛋白质复合物对于许多细胞过程至关重要,包括基因转录和转录后基因调控。由于 RNA 突变迅速,及时确定 RNA-蛋白质复合物的结构可能并不容易。因此,迫切需要利用现有的 RNA-蛋白质相互作用网络和测序数据快速识别 RNA 的蛋白质结合对象。

最先进的 RNA-蛋白质相互作用 (RPI) 预测方法主要依赖于传统的机器学习和深度学习技术。深度学习模型用于从 RPI 网络中的节点度数学习模式。在测序规模数据上的 LLM 的帮助下,ZHMolGraph 克服了有限结合数据带来的限制,增强了其对未知和蛋白质对的泛化性。模型的改进在帮助预测 RNA-蛋白质结构方面表现出潜力。

图片

图示:构建 RPI 网络的工作流程。(图源:论文)

搭建模型的工作旨在改进 RNA-Protein RPI 预测。他们首先使用使用结构化、高通量和文献挖掘验证数据构建了三个不同的网络,以了解 RPI 的特征。其次采用了名为 ZHMolGraph 的深度学习管道,它可以利用无监督 LLM 节点特征的网络采样学习策略来优化对 RNA 和蛋白质结合特性的探索。

ZHMolGraph 框架与 RPI 网络的特点

图片

图示:ZHMolGraph 框架概述。(图源:论文)

在分析了结构网络的拓扑结构后,他们发现与结构网络中的所有节点、蛋白质和 RNA 相关的相互作用呈肥尾分布。在高通量和文献挖掘验证网络中也有类似的发现。

研究表明,RPI 网络具有无标度拓扑。它突出显示了网络内节点的连接首选项的差异。高通量和文献挖掘验证的网络也表现出反相关和幂律衰减模式。在所有三种类型的网络中,高度节点的公共邻居数量通常不会比低度节点多得多。

在分析了各种来源的网络特性后,研究者们观察到 RPI 网络表现出无标度特性和高模块化。这些发现表明了复杂 RPI 网络中的秩序感和一致性,并为其复杂的拓扑结构提供了新的视角。RPI 复杂网络系统显示定义明确的连接关系,允许大型语言模型映射短语之间的关联并推断复杂体之间的交互。

图片

图示:ZHMolGraph 在基准测试数据集上的整体性能。(图源:论文)

RPI 网络节点到达新节点的能力与它们各自的程度直接相关。这一结果表明 RNA 和蛋白质节点在 RPI 的进化中是首选的。

除此之外, LLM 和 GNN 的嵌入可以相互补充,弥补每种方法在基准测试中各自的局限性。在跨物种建模中, ZHMolGraph 有效地最大限度地减少了对特定 RNA 和蛋白质家族的潜在结构偏差。

功能繁多使用灵活的模型

ZHMolGraph,通过结合无监督 LLM 语言模型和图神经网络来提高准确性和泛化性。在与其他深度学习方法进行对比之后,全新的模型展示出了它明显的性能提升。

现如今可以利用 ZHMolGraph 来帮助预测 RNA-蛋白质复合物结构。ZHMolGraph 可以识别界面中 RNA 和蛋白质结合在一起的序列。

尽管 ZHMolGraph 有助于识别 RPI 与序列信息的相互作用,但结合现象主要取决于分子的三级结构。通过结合驱动 RNA-蛋白质结合的高阶分子特性,这一进展将进一步提高 ZHMolGraph 的预测准确性,从而可以更详细地分析 RNA-蛋白质残基和核苷酸之间的物理相互作用接触。

与其他最先进的方法相比,ZHMolGraph 表现出高准确性和泛化性,即使对于未知节点数据集也是如此。ZHMolGraph 是一种可靠的工具,可用于在全基因组范围内确定 RNA-蛋白质相互作用,并准确预测近天然 RNA-蛋白质结构。

原文链接:https://www.nature.com/articles/s42003-025-07694-9

代码链接:https://github.com/Zhaolab-GitHub/ZHMolGraph

理论
暂无评论
暂无评论~