编辑 | 2049
想象一下,如果开发一款新药就像积木搭建一样,可以自由组合不同的分子部件,并准确预测它们与目标蛋白质的结合效果。这听起来可能很科幻,但最新发表的研究让这一愿景更近了一步。
瑞士联邦理工学院(EPFL)、剑桥大学、康奈尔大学、牛津大学的联合研究团队开发的AI系统 DiffSBDD ,就像是一位经验丰富的分子建筑师,能够精确设计和优化药物分子的 3D 结构。
该研究以「Structure-based drug design with equivariant diffusion models」为题,于 2024 年 12 月 9 日发布在《Nature Computational Science》。
新药研发是一个极其耗时和昂贵的过程。传统方法通常需要科学家从数百万个候选分子中筛选,就像在大海中寻找针一样。即使找到了有潜力的分子,还需要经过漫长的优化过程。更重要的是,现有的 AI 辅助方法往往过于专一,缺乏灵活性。因此,能否找到一种更灵活、更高效的方法,正成为业界和学术界共同关注的焦点。
技术创新:SE(3)- 等变扩散模型的工作原理
DiffSBDD 的核心创新在于将 SE(3)- 等变扩散模型引入结构导向的药物设计中。该方法将药物设计转化为一个三维条件生成问题,通过引入 SE(3)- 等变性来处理分子系统中的自然对称性,包括旋转和平移,但特意排除了不可叠加的转换。
这种设计选择源于广泛研究的药物立体化学案例。如抗抑郁药 citalopram(图1e)具有两种对映异构体,但只有S型具有所需的治疗效果。这种异构体间的差异只能通过反射敏感的模型来检测,证明了 SE(3)- 等变性在手性药物设计中的重要性。从这一原理可见,分子立体结构的细微差异对药效影响巨大,正是 DiffSBDD 发力之处。
DiffSBDD的工作流程可分为两个主要阶段:
训练阶段
在训练过程中,扩散过程 q 对原始原子点云进行噪声处理,生成不同时间步长的噪声版本。神经网络模型学习近似这个逆过程,以目标蛋白质结构作为条件。一旦训练完成,初始噪声点云从高斯分布中采样,并使用学习的转移概率逐步去噪。最后在生成过程末尾添加共价键。完成上述训练后,系统便能为后续的条件生成打下坚实基础,让分子去噪过程更加精准。
条件生成阶段
针对蛋白质口袋的 3D 生成模型,研究团队提出了两种不同方法:
1、DiffSBDD-cond: 在去噪过程中保持蛋白质口袋环境不变。
2、DiffSBDD-joint: 先学习配体-口袋对的联合分布,推理时再引入目标口袋信息。
两种方法在CrossDocked和Binding MOAD测试集上均表现优异,生成的分子具有与参考分子相当或更好的结合得分。以人类受体(PDB:6c0b)为例,模型能够将原本类药性较差(QED=0.36)的长链脂肪酸优化为具有更好药物特性(QED=0.87)的分子,通过合理设计芳香环和可旋转键实现了更优的结合构象和熵贡献。
图 2:评估分布式学习能力和生成的实例。(来源:论文)
DiffSBDD 的多功能分子设计能力
DiffSBDD 展现出在药物研发中的通用性和灵活性,无需为每个具体任务重新训练模型就能胜任多项关键任务。正是在这些多样化场景中的成功应用,印证了它作为“通用分子设计平台”的潜力。
分子结构设计能力
在分子片段任务中,DiffSBDD 展示了多样的设计能力。模型能以给定片段为基础构建完整药物分子,同时可以保留关键功能团并重新设计分子骨架。一个典型案例是激酶抑制剂(PDB 编号 2gm1)的重设计,模型在保持结合活性的同时成功重构了分子骨架。在片段合并方面,研究团队展示了将 SARS-CoV-2 Nsp3 蛋白的两个片段(PDB 编号 5rsw 和 5rue)成功整合的实验。
图 3:分子着色结果。(来源:论文)
选择性优化与多属性调控
在激酶抑制剂优化的案例中,DiffSBDD 展示了其多目标优化能力。模型通过五轮优化,将分子对目标激酶 BIKE(PDB 编号 4w9w)的结合得分从 -7.2 提升至 -13.9,同时降低了对非目标激酶 MPSK1(PDB 编号 2buj)的结合倾向,从 -10.8 降低至 -8.7。除了选择性优化外,模型还能同时调控多个药物属性,包括类药性(QED,从 0.35 提升至 0.54)、合成可行性(SA score)、结合亲和力(Vina score)等关键物理化学性质。
这种多功能性源于模型的两个关键创新:首先是其通用性,一个预训练模型即可应用于广泛的问题范围;其次是设计约束的灵活性,能够同时处理现成属性优化、显式负向设计和部分分子设计等多种任务。如原文所述「While we provide empirical results for only our model, the methodology can be readily used in combination with other recently published diffusion models for small-molecule design」这种方法学的普适性为药物研发提供了新的可能性。
图 4:使用 DiffSBDD 进行分子优化的结果。(来源:论文)
局限性与未来展望
尽管 DiffSBDD 展现出强大的药物设计潜力,研究团队也坦言仍面临挑战:纯从头设计(de novo design)难度较大,常因样品质量和可合成性受限而阻碍实验验证。研究表明,在真实亚结构(如片段或支架)范围内进行设计往往成效更佳,并可借助保留先前合成分子的关键片段来简化化学合成和测试。
与以往针对特定任务训练的专用模型不同,DiffSBDD 通过修改采样过程即可胜任多项子任务,只需持续优化主模型的分布学习和样本质量便能整体提升性能。随着这项技术不断成熟,我们或许正迈向更智能化、个性化的药物研发时代,借由其灵活探索分子空间的能力,为精准医疗打开新的大门。
论文链接:https://www.nature.com/articles/s43588-024-00737-x