编辑 | 萝卜皮
预测小分子配体与蛋白质的结合结构——一项称为分子对接的任务——对药物设计至关重要。与传统的基于搜索的方法相比,最近将对接视为回归问题的深度学习方法减少了运行时间,但尚未显着提高准确性。
相反,麻省理工学院(MIT)的研究团队将分子对接视为一个生成建模问题,并开发了 DiffDock,这是一种在配体位姿的非欧几里得流形上的扩散生成模型。为此,研究人员将这个流形映射到对接所涉及的自由度(平移、旋转和扭转)的乘积空间,并在该空间上开发一个有效的扩散过程。
根据经验,DiffDock 在 PDBBind 上获得了 38% 的 top-1 成功率(RMSD<2Å),显著优于传统对接(23%)和深度学习(20%)方法。此外,DiffDock 具有快速的推理时间并提供具有高选择性准确性的置信度估计。
该研究以「DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking」为题,于 2022 年 10 月 4 日发布在 arXiv 预印平台。
蛋白质的生物学功能可以通过与其结合的小分子配体(如药物)来调节。因此,计算药物设计中的一项关键任务是分子对接——预测配体与靶蛋白结合时的位置、方向和构象——从中可以推断出配体的作用(如果有的话)。传统的对接方法依赖于估计所提出的结构或姿势的正确性的评分函数,以及搜索评分函数的全局最大值的优化算法。然而,由于搜索空间巨大且评分功能的环境崎岖不平,这些方法往往过于缓慢且不准确,尤其是对于高通量工作流程。
最近的工作已经开发出深度学习模型来一次性预测绑定姿势,将对接视为回归问题。虽然这些方法比传统的基于搜索的方法要快得多,但它们尚未显示出准确性的显著提高。MIT 的研究人员认为这可能是因为基于回归的范式与分子对接的目标不完全对应,这反映在标准准确度指标类似于预测模型下数据的可能性而不是回归损失的事实中。因此,研究人员将分子对接视为一个生成建模问题——给定配体和靶蛋白结构,学习配体位姿的分布。
图示:DIFFDOCK 概述。(来源:论文)
因此,他们开发了 DiffDock,这是一种在配体位姿空间上用于分子对接的扩散生成模型(DGM)。研究人员定义了一个关于对接所涉及的自由度的扩散过程:配体相对于蛋白质的位置(定位结合口袋)、它在口袋中的方向以及描述其构象的扭转角。
DiffDock 通过运行学习(反向)扩散过程来采样姿势,该过程迭代地将配体姿势上的无信息、嘈杂的先验分布转换为学习模型分布。直观地讲,这个过程可以看作是通过更新它们的平移、旋转和扭转角来逐步细化随机姿势。
虽然 DGM 已应用于分子机器学习中的其他问题,但现有方法不适合分子对接,其中配体位姿的空间是 (m + 6) 维子流形 M ⊂ R^3n,其中 n 和 m 是, 分别为原子数和扭转角。为了开发 DiffDock,该团队认识到对接自由度将 M 定义为可通过一组允许的配体姿势变换访问的姿势空间。研究人员使用这个想法将 M 中的元素映射到与这些转换相对应的组的产品空间,在那里可以有效地开发和训练 DGM。
由于对接模型的应用通常只需要固定数量的预测和对这些预测的置信度得分,因此他们训练了一个置信度模型来为从 DGM 采样的姿势提供置信度估计,并挑选出最有可能的样本。这个两步过程可以看作是蛮力搜索和一次性预测之间的中间方法:保留了考虑和比较多个姿势的能力,而不会产生高维搜索的困难。
根据经验,在标准盲对接基准 PDBBind 上,DiffDock 实现了 38% 的 top-1 预测,配体均方根距离(RMSD)低于 2Å,几乎是之前最先进的深度学习模型的性能的两倍(20%)。DiffDock 甚至在执行最先进的基于搜索的方法 (23%) 方面都表现出色,同时在 GPU 上的速度仍然快 3 到 12 倍。此外,它提供了准确的预测置信度分数,在之前未见过的复合物中最有信心的三分之一获得了 83% RMSD<2Å。
总而言之,这项研究的主要贡献是:
1、将分子对接任务定义为一个生成问题,并强调以前的深度学习方法存在的问题。
2、制定了一种新的配体位姿扩散过程,对应于分子对接所涉及的自由度。
3、在 PDBBind 盲对接基准上实现了新的最先进的 38% top-1 预测,RMSD<2Å,大大超过了之前基于搜索的最佳方法 (23%) 和深度学习方法 (20%)。
该团队提出的 DiffDock 作为一种针对分子对接任务量身定制的扩散生成模型,代表了从以前使用基于回归的框架的深度学习方法到更符合分子对接目标的生成建模方法的范式转变。为了生成快速准确的生成模型,研究人员设计了一个流形上的扩散过程,通过跨越流形的配体位姿变换来描述任务的主要自由度。
根据经验,DiffDock 在 PDBBind 上的性能大大优于最先进的技术,具有快速的推理时间,并提供具有高选择性精度的置信度估计。因此,DiffDock 可以为许多现有的现实世界管道提供巨大的价值,并为如何最好地集成下游任务开辟新的研究途径,例如亲和力预测,进入框架并将类似的想法应用于蛋白质-蛋白质和蛋白质-核酸对接。
论文链接:https://paperswithcode.com/paper/diffdock-diffusion-steps-twists-and-turns-for