Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

准确、高效、物理有效,中科大、北大提出「两段式」分子对接统一框架DeltaDock

图片

编辑 | KX

分子对接是一种预测配体结合姿势的技术,在基于结构的药物设计中对于理解蛋白质-配体相互作用至关重要。最近,几何深度学习 (GDL) 对接方法,比传统采样方法具有更高的效率和准确性。

然而,当前的方法通常是针对特定的对接设置量身定制的,并且会忽略蛋白质侧链结构,难以处理大型结合口袋,难以预测物理有效结构。

为此,中国科学技术大学和北京大学的研究团队,提出了一种新颖的两阶段对接框架 DeltaDock,包括口袋预测和位点特异性对接。

研究人员创新地将口袋预测任务重新定义为口袋-配体对齐问题,而不是在第一阶段直接预测。然后,遵循了两级从粗到细的迭代细化过程来执行位点特异性(site-specific)对接。实验证明了 DeltaDock 的卓越性能。

值得注意的是,在盲对接设置中,DeltaDock 与之前最先进的 GDL 模型相比,对接成功率相对提高了 31%。考虑到物理有效性,这一改进在 PoseBusters 基准上增加到大约 300%。

相关研究以「DeltaDock: A Unified Framework for Accurate, Efficient, and Physically Reliable Molecular Docking」为题,于 10 月 15 日发布在预印平台 arXiv 上。

图片

论文链接:https://arxiv.org/abs/2410.11224

几何深度学习 (GDL) 作为一种创新、有前景的分子对接范式,用于预测和了解靶蛋白与药物之间的相互作用,对于药物发现至关重要。GDL 方法优于传统方法,在结合姿势预测的准确性和推理效率方面均有所提高。

根据是否给出先前的口袋,分子对接可分为盲对接和位点特异性对接。传统采样方法能够熟练地应对这两种情况,主要区别在于它们探索的搜索空间范围。相比之下,GDL 方法通常专注于其中一种,存在一定局限性。

对于盲对接方法,GDL 方法忽略了细粒度的蛋白质侧链结构。对于位点特异性对接方法,当处理大于预定 cutoff  的口袋,或需要模拟广泛的口袋周围结构以考虑长距离相互作用时,这些方法的性能会显著下降,对计算资源的需求也会显著增加。此外,由于缺乏归纳偏差,GDL 方法还会产生不切实际的对接姿势。

统一的 GDL 框架:DeltaDock

为了解决以上问题,中国科大团队提出了一个统一的 GDL 框架 DeltaDock,用于准确、高效且物理有效的对接。DeltaDock 是一个两阶段框架,由口袋预测阶段和位点特定对接阶段组成。

「Delta」的意思是,通过在第二对接阶段迭代细化输入结构来预测最佳姿势。第一个口袋预测阶段专门用于盲对接,通过新颖的对比口袋配体对齐模块 CPLA 从一组候选中识别出一个结合口袋。然后在第二阶段,在 CPLA 预定义或选择的口袋内,在双层粗到细迭代细化模块 Bi-EGMN 中预测结合结构。

该模块优先考虑大外框覆盖的残基级结构,以进行姿势定位和粗略结构预测。而原子级结构位于粗略结构相对较小半径范围内,可进行更精确的预测。

图片

图示:白色表面表示 SARS-CoV-2 的主要蛋白酶。粉色、蓝色和红色的配体结构分别对应于 PDB 5RGY、7AQJ 和 7JU7。(来源:论文)

具体来说,该模块结合了 (i) GPU 加速的姿势采样算法,可生成高质量的初始结构,(ii) 训练目标,对空间冲突和配体移动性施加惩罚,以及 (iii) 快速后处理步骤,包括扭转对齐和能量最小化结构校正。

为了适应两种不同的对接设置,DeltaDock 专门设计为两阶段框架,而不是端到端框架。特别是,口袋-配体对齐模块的灵感来自下图所示的观察结果。现有的口袋预测方法通常只能实现 70%-80% 的召回率。但是,当结合多种方法预测的所有可能口袋时,该召回率可达到近 95%。

图片

图示:不同口袋预测方法在 PDBbind 测试集上的表现。通过整合各种方法预测的口袋,命中率显著提高。(来源:论文)

根据这一结果,研究人员将重点从设计越来越强大的口袋预测模型转移到开发从预测口袋集合中有效选择候选口袋的策略。因此,口袋预测任务被创新地重新定义为口袋-配体对齐问题。

对于位点特异性对接阶段,关键思想是准确预测可靠的姿态。基于所提出的双层迭代细化模型,还引入了上面介绍的几个组件。其中,采用姿态采样算法进行结构初始化。另外两个组件,即基于物理信息的训练对象和快速结构校正步骤,用于确保物理有效性。

图片

图示:DeltaDock 两个模块的概览。(来源:论文)

准确、高效、通用、物理有效

为了证明 DeltaDock 的有效性,研究人员进行了全面的实验来评估其预测准确性、效率、通用性以及预测物理有效结合姿势的能力。

盲对接

研究人员首先评估了 DeltaDock 在 PDBbind 数据集上的综合性能,包括盲对接和位点特异性对接设置。

如表 1 所示,DeltaDock 的表现优于所有基线方法。具体而言,DeltaDock 的成功率高达 47.4%(RMSD < 2.0 Å),超过了之前的 SOTA GDL 方法 DiffDock(成功率为 36.0%)。

与 PDBbind 测试集中表现最佳的基于采样的方法 DSDP 相比,DeltaDock 在所有指标上仍然表现出色。

除了准确性之外,DeltaDock 同时保持了卓越的计算效率。

图片

位点特异性对接

大多数现有的 GDL 方法(例如 DiffDock 和 EquiBind)主要针对盲对接场景而设计,本身并不适合位点特异性对接任务。然而,DeltaDock 无缝集成了盲对接和位点特异性对接设置。在这种情况下,口袋是直接提供的,无需通过 CPLA 选择口袋。

下图为 DeltaDock 在位点特异性对接中的表现。当提供预定义的结合位点时,传统采样方法的结果会显著改善。例如,VINA 的对接成功率从 10.3% 上升到 45.0%。尽管有这种增强,DeltaDock 仍始终超越所有基线。

图片

图示:位点特异性对接性能。(来源:论文)

从以上结果可以看出,DeltaDock 在盲对接和特异性对接场景中都表现出了优异的性能,证明了其在处理不同对接设置时的多功能性和稳健性。

泛化能力评估

从历史上看,GDL 对接方法泛化能力有限。如表 1 所示,PDBbind 测试的未见集上所有方法的对接成功率通常低于完整 PDBbind 测试集上的对接成功率。

值得注意的是,TANKBind 和 SOTA GDL 方法 DiffDock 的性能下降了 14.1% 和 18.8%。这一结果表明,未见测试集比整个测试集更具挑战性。

然而,DeltaDock 表现出了具有竞争力的性能,对接成功率达到了 40.8%。与未见测试集上表现最好的 GDL 基线 FABind 相比,DeltaDock 在对接成功率方面显著超越了它 20.1%。

Pose 有效性评估

研究人员进一步研究了 DeltaDock 预测物理有效结构的能力,方法是采用 Buttenschoen 等人设计的 PoseBusters 测试套件。除了预测姿势与真实姿势之间的 RMSD 之外,测试套件还包含 18 项检查,涵盖化学有效性和一致性、分子内有效性和分子间有效性。

当考虑物理有效性时,传统采样方法的对接成功率保持稳定,而先前的几何深度学习方法的性能显著下降,尤其是对于 TANKBind、DeepDock 和 Uni-Mol。即使没有应用快速结构校正步骤,DeltaDock-SC 变体也显示出比以前的方法有显著的改进。这些结果证实了 DeltaDock 预测物理有效结构的能力,从而肯定了其在实际应用中的可靠性。

最后,研究人员希望该研究进一步促进分子对接框架的广泛应用和持续发展。

理论分子对接生物AI
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~