编辑 | KX
分子对接是一种预测配体结合姿势的技术,在基于结构的药物设计中对于理解蛋白质-配体相互作用至关重要。最近,几何深度学习 (GDL) 对接方法,比传统采样方法具有更高的效率和准确性。
然而,当前的方法通常是针对特定的对接设置量身定制的,并且会忽略蛋白质侧链结构,难以处理大型结合口袋,难以预测物理有效结构。
为此,中国科学技术大学和北京大学的研究团队,提出了一种新颖的两阶段对接框架 DeltaDock,包括口袋预测和位点特异性对接。
研究人员创新地将口袋预测任务重新定义为口袋-配体对齐问题,而不是在第一阶段直接预测。然后,遵循了两级从粗到细的迭代细化过程来执行位点特异性(site-specific)对接。实验证明了 DeltaDock 的卓越性能。
值得注意的是,在盲对接设置中,DeltaDock 与之前最先进的 GDL 模型相比,对接成功率相对提高了 31%。考虑到物理有效性,这一改进在 PoseBusters 基准上增加到大约 300%。
相关研究以「DeltaDock: A Unified Framework for Accurate, Efficient, and Physically Reliable Molecular Docking」为题,于 10 月 15 日发布在预印平台 arXiv 上。
几何深度学习 (GDL) 作为一种创新、有前景的分子对接范式,用于预测和了解靶蛋白与药物之间的相互作用,对于药物发现至关重要。GDL 方法优于传统方法,在结合姿势预测的准确性和推理效率方面均有所提高。
根据是否给出先前的口袋,分子对接可分为盲对接和位点特异性对接。传统采样方法能够熟练地应对这两种情况,主要区别在于它们探索的搜索空间范围。相比之下,GDL 方法通常专注于其中一种,存在一定局限性。
对于盲对接方法,GDL 方法忽略了细粒度的蛋白质侧链结构。对于位点特异性对接方法,当处理大于预定 cutoff 的口袋,或需要模拟广泛的口袋周围结构以考虑长距离相互作用时,这些方法的性能会显著下降,对计算资源的需求也会显著增加。此外,由于缺乏归纳偏差,GDL 方法还会产生不切实际的对接姿势。
统一的 GDL 框架:DeltaDock
为了解决以上问题,中国科大团队提出了一个统一的 GDL 框架 DeltaDock,用于准确、高效且物理有效的对接。DeltaDock 是一个两阶段框架,由口袋预测阶段和位点特定对接阶段组成。
「Delta」的意思是,通过在第二对接阶段迭代细化输入结构来预测最佳姿势。第一个口袋预测阶段专门用于盲对接,通过新颖的对比口袋配体对齐模块 CPLA 从一组候选中识别出一个结合口袋。然后在第二阶段,在 CPLA 预定义或选择的口袋内,在双层粗到细迭代细化模块 Bi-EGMN 中预测结合结构。
该模块优先考虑大外框覆盖的残基级结构,以进行姿势定位和粗略结构预测。而原子级结构位于粗略结构相对较小半径范围内,可进行更精确的预测。
具体来说,该模块结合了 (i) GPU 加速的姿势采样算法,可生成高质量的初始结构,(ii) 训练目标,对空间冲突和配体移动性施加惩罚,以及 (iii) 快速后处理步骤,包括扭转对齐和能量最小化结构校正。
为了适应两种不同的对接设置,DeltaDock 专门设计为两阶段框架,而不是端到端框架。特别是,口袋-配体对齐模块的灵感来自下图所示的观察结果。现有的口袋预测方法通常只能实现 70%-80% 的召回率。但是,当结合多种方法预测的所有可能口袋时,该召回率可达到近 95%。
根据这一结果,研究人员将重点从设计越来越强大的口袋预测模型转移到开发从预测口袋集合中有效选择候选口袋的策略。因此,口袋预测任务被创新地重新定义为口袋-配体对齐问题。
对于位点特异性对接阶段,关键思想是准确预测可靠的姿态。基于所提出的双层迭代细化模型,还引入了上面介绍的几个组件。其中,采用姿态采样算法进行结构初始化。另外两个组件,即基于物理信息的训练对象和快速结构校正步骤,用于确保物理有效性。
准确、高效、通用、物理有效
为了证明 DeltaDock 的有效性,研究人员进行了全面的实验来评估其预测准确性、效率、通用性以及预测物理有效结合姿势的能力。
盲对接
研究人员首先评估了 DeltaDock 在 PDBbind 数据集上的综合性能,包括盲对接和位点特异性对接设置。
如表 1 所示,DeltaDock 的表现优于所有基线方法。具体而言,DeltaDock 的成功率高达 47.4%(RMSD < 2.0 Å),超过了之前的 SOTA GDL 方法 DiffDock(成功率为 36.0%)。
与 PDBbind 测试集中表现最佳的基于采样的方法 DSDP 相比,DeltaDock 在所有指标上仍然表现出色。
除了准确性之外,DeltaDock 同时保持了卓越的计算效率。
位点特异性对接
大多数现有的 GDL 方法(例如 DiffDock 和 EquiBind)主要针对盲对接场景而设计,本身并不适合位点特异性对接任务。然而,DeltaDock 无缝集成了盲对接和位点特异性对接设置。在这种情况下,口袋是直接提供的,无需通过 CPLA 选择口袋。
下图为 DeltaDock 在位点特异性对接中的表现。当提供预定义的结合位点时,传统采样方法的结果会显著改善。例如,VINA 的对接成功率从 10.3% 上升到 45.0%。尽管有这种增强,DeltaDock 仍始终超越所有基线。
从以上结果可以看出,DeltaDock 在盲对接和特异性对接场景中都表现出了优异的性能,证明了其在处理不同对接设置时的多功能性和稳健性。
泛化能力评估
从历史上看,GDL 对接方法泛化能力有限。如表 1 所示,PDBbind 测试的未见集上所有方法的对接成功率通常低于完整 PDBbind 测试集上的对接成功率。
值得注意的是,TANKBind 和 SOTA GDL 方法 DiffDock 的性能下降了 14.1% 和 18.8%。这一结果表明,未见测试集比整个测试集更具挑战性。
然而,DeltaDock 表现出了具有竞争力的性能,对接成功率达到了 40.8%。与未见测试集上表现最好的 GDL 基线 FABind 相比,DeltaDock 在对接成功率方面显著超越了它 20.1%。
Pose 有效性评估
研究人员进一步研究了 DeltaDock 预测物理有效结构的能力,方法是采用 Buttenschoen 等人设计的 PoseBusters 测试套件。除了预测姿势与真实姿势之间的 RMSD 之外,测试套件还包含 18 项检查,涵盖化学有效性和一致性、分子内有效性和分子间有效性。
当考虑物理有效性时,传统采样方法的对接成功率保持稳定,而先前的几何深度学习方法的性能显著下降,尤其是对于 TANKBind、DeepDock 和 Uni-Mol。即使没有应用快速结构校正步骤,DeltaDock-SC 变体也显示出比以前的方法有显著的改进。这些结果证实了 DeltaDock 预测物理有效结构的能力,从而肯定了其在实际应用中的可靠性。
最后,研究人员希望该研究进一步促进分子对接框架的广泛应用和持续发展。