Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

ICLR 2025 | Deep Signature 高效表征生物大分子复杂运动的新方法

图片

编辑 | ScienceAI

理解蛋白质动力学行为对于解析其功能机制和开发分子疗法至关重要。然而,生物过程通常涉及复杂的高维动力学以及原子间相互作用,这对现有计算处理技术构成了巨大挑战。

本文介绍了来自香港城市大学李皓亮研究团队所提出的 Deep Signature,一个用于生物大分子复杂运动表征学习的深度学习框架。该框架能够高效地表征分子构型的动态变化,并适用于多种下游任务。该论文已接受于 ICLR`2025

图片

论文题目: Deep Signature: Characterization of Large-Scale Molecular Dynamics

论文地址: https://openreview.net/pdf?id=xayT1nn8Mg 

开源代码: https://github.com/WonderSeven/Deep-Signature

研究背景

生物过程在分子层面上主要受大分子(特别是蛋白质和酶)构象动态变化的驱动。这些构象变化决定了诸如蛋白–配体结合、分子运输和酶促反应等关键生物事件。

因此,深入解析这些分子动力学行为对于理解分子功能和药物设计至关重要。分子动力学 (Molecular Dynamics, MD) 模拟基于密度泛函理论,能够高精度地生成每个原子在三维构象空间中的轨迹,是目前研究分子动态机制的重要计算工具。

尽管 MD 模拟技术取得了显著进展,但对其高维轨迹数据的分析仍然面临重大挑战。这一挑战主要源于大规模分子体系中复杂的原子间相互作用,以及跨越不同时间尺度的动态行为。

目前,许多研究采用简化的生物物理模型来分析特定的动力学特征,如波动、弛豫时间、稳定性和状态转换等。

然而,随着高性能计算,尤其是 GPU 加速深度学习的发展,研究人员开始尝试使用数据驱动的方法自动学习 MD 轨迹的分子表示。例如,近年来的研究利用体素化建模和蛋白表面建模等方法提取分子结构和化学特征,以进行自动化药物发现。

不过,这些方法的计算复杂度随时间步数呈线性增长,难以适用于长时间尺度的 MD 模拟。

当前 MD 轨迹分析的另一大局限性在于对生物结构信息的利用不足。这主要是因为,在动态过程中处理原子间高阶相互作用的计算复杂度极高,这一复杂度通常至少随系统大小呈二次增长,而生物结构信息涉及的共价键与非共价键相互作用对分子功能至关重要。

现有研究尚未对此进行深入探索,这一研究空白限制了我们对分子行为的全面理解,也影响了药物设计和耐药性研究的精确预测。

此外,一个理想的分子运动表征方法除了能解决上述挑战外,还需具备如几何对称性(如平移、旋转不变性)、对于异质的分子结构的泛化性和一定的可解释性。该任务不同于传统的时间序列分类和时空数据分析,现有技术无法直接处理。因此,我们迫切需要为大规模 MD 数据分析设计新的深度学习框架。

模型部分

图片

图一

作者提出了一种计算高效的框架——Deep Signature,它结合生物结构信息与粗粒化映射(Coarse Graining),用于自动分析蛋白质轨迹动力学。

方法的整体框架如图一所示,我们可以看到Deep Signature主要由两个模块构成:

(1)深度谱聚类模块(Deep spectral clustering module), 该模块基于软谱聚类(Soft Spectral Clustering)来聚合原子的协同动态,其中聚类分配函数由图神经网络自动学习,从而避免了手动选择粗粒化映射的需求。
(2)路径签名变换模块 (Path signature transform module),路径签名(Path Signature)是一个数学上严格定义的概念,它通过迭代积分来紧凑而丰富地描述粗糙路径的几何信息,特别适用于高采样、非平滑的分子轨迹分析。

Deep Signature 的特征提取方法在理论上保证了以下关键几何对称性:平移不变性、近似旋转不变性、原子坐标排列等变性以及时间重参数化不变性,确保了其对 MD 轨迹的随机波动具有鲁棒性。

关于 Deep Signature 模型设计和具体实现的更多细节,由于比较繁杂,可以移步参阅论文。

实验结果

为了验证 Deep Signature 的有效性,作者在以下三项基准任务上进行了实验:

1. 基因调控动力学(Gene Regulatory Dynamics)

图片

从上表可以看到 Deep Signature 在所有评测指标上均优于基线方法,右图分别对比了不同方法在模拟时间增加和系统规模扩大的表现,Deep Signature 在这两种实验场景均表现非常稳定。

2. 表皮生长因子受体(EGFR)突变动力学

图片

3. G 蛋白偶联受体(GPCR)动力学

图片

泛化性分析

这里使用 t-SNE 对 EGFR 的训练集(绿圈)和测试集数据(橙圈)的特征空间进行可视化,以分析路径签名变换后学习到的特征的可判别性和泛化性。

图片

结果表明,相较于基线方法,Deep Signature 提取的特征分布更均匀,使得不同类别的样本更易区分。此外,尽管训练集和测试集的数据因原子数量变化及拓扑结构的异质性存在分布偏移,Deep Signature 依然能够学习到良好的可泛化的特征。这一优势得益于几何对称性以及层归一化的引入,从而显著提升了模型的泛化能力。

可解释性分析

我们采用 Gradient ⊙ Input 方法来量化所提取的 log-signature 特征中各个元素对最终预测结果的贡献,并且因为深度聚类模块仅涉及线性变换,我们可以对这些动态交互的重要性进行排序。

下图展示了在EGFR由突变引起的构型动态变化过程中,对其药物敏感性预测起关键作用的三个关键原子的交互动态:

图片

值得注意的是,这些原子均位于铰链区域,该区域包含所有 ATP 结合位点,这一发现与实验观测结果高度一致,进一步验证了我们方法的合理性和生物学解释性。

总结

本文提出了一个用于分析大规模生物系统中动力学的深度学习框架 Deep Signature。该方法结合软谱聚类来聚合协同动态和对数路径签名变换来表征全局交互动态,所提取的表征具备平移不变性、近似旋转不变性和置换等变性等优良性质。实验结果表明,Deep Signature 在多个生物过程基准数据集上表现出色,能够有效捕捉复杂的分子交互动力学。这一研究有希望为药物发现、蛋白质工程和生物分子研究提供了新的计算工具,推动了计算分子模拟的发展。

理论分子动力学香港城市大学蛋白质
暂无评论
暂无评论~