2024/09/12 14:48

筛选数十亿化合物库，华盛顿大学药物AI虚拟筛选平台，登Nature子刊

编辑 | KX

基于结构的虚拟筛选在药物发现中发挥着重要作用，科学家对数十亿种化合物库的筛选越来越感兴趣。

但只有少数的筛选取得成功，此外，对于基于物理的对接方法而言，对整个超大型库进行虚拟筛选耗时且成本高昂。

基于此，华盛顿大学研究团队开发了一种高度准确的基于结构的虚拟筛选方法 RosettaVS，用于预测对接姿势和结合亲和力。

RosettaVS 在广泛的基准测试中优于其他最先进的方法。研究人员将其整合到一个新的开源 AI 加速虚拟筛选平台中，用于药物发现。

利用这个平台，针对两个不相关的靶标，即泛素连接酶靶标 KLHDC2 和人类电压门控钠通道 NaV1.7，筛选了数十亿种化合物库。对于这两个靶标，研究都发现了命中化合物，所有化合物的结合亲和力均为个位数微摩尔。两种情况下的筛选都在不到七天内完成。

相关研究以「An artificial intelligence accelerated virtual screening platform for drug discovery」为题，于 9 月 5 日发布在《Nature Communications》上。

论文链接：https://www.nature.com/articles/s41467-024-52061-7

虚拟筛选用于药物发现

基于结构的虚拟筛选是早期药物发现的关键工具，随着包含数十亿种化合物的化学库的出现，科学家对筛选广阔的化学空间，从而发现先导化合物的兴趣日益浓厚。

然而，虚拟筛选的成功在很大程度上取决于计算对接预测的结合姿势（pose）和结合亲和力的准确性。

近年来，已有许多技术用于超大型库虚拟筛选，包括开发可扩展的虚拟筛选平台，在高性能计算集群（HPC）上并行对接运行、深度学习引导的化学空间探索、基于分层结构的虚拟筛选和 GPU 加速的配体对接等。

然而，使用上述技术进行虚拟筛选研究的成功，取决于用于预测蛋白质-配体复合物结构的配体对接程序的准确性，以及区分和优先考虑真正的结合物和非结合物。

在此，研究人员旨在开发一种「最先进的」（SOTA）基于物理的虚拟筛选方法和一个开源虚拟筛选平台，能够稳健高效地筛选数十亿种化合物库。

AI 加速虚拟筛选平台

该团队此前开发的 Rosetta GALigandDock 是一种配体对接方法，它使用基于物理的力场 RosettaGenFF，在配体对接精度方面表现出色。该方法可以精确建模蛋白质-配体复合物。然而，它不能直接适用于大规模虚拟筛选，基于物理的虚拟筛选方法对数十亿种化合物库中的每种化合物进行对接的成本过高。

为了解决这些问题，研究人员整合了多项增强功能并纠正了几个关键问题，来促进对数十亿种小分子的建模。

首先，通过整合新的原子类型和新的扭转势（torsional potentials ）改进了 RosettaGenFF，并改进了预处理脚本。其次，开发了 RosettaGenFF-VS 用于虚拟筛选，以对与同一靶标结合的不同配体进行排序，它将其之前模型的焓计算（∆H）与估计配体结合时熵变化（∆S）的新模型相结合。

图示：深度学习引导的虚拟筛选方案概述。（来源：论文）

为了能够针对超大化合物库进行筛选，研究人员采用了两种策略。首先，开发了一种改进的对接协议 RosettaVS，它实现了两种高速配体对接模式：虚拟筛选快速版 (VSX) 专为快速初步筛选而设计，而虚拟筛选高精度版 (VSH) 是一种更准确的方法，用于对初始筛选中的最佳匹配进行最终排序。两种模式之间的主要区别在于 VSH 中包含了完整的受体灵活性。

即使有了这些加速，对接超过十亿种化合物的成本也非常高昂。基于此，研究人员开发了一个开源虚拟筛选 (OpenVS) 平台，该平台使用主动学习技术在对接计算过程中同时训练目标特定的神经网络，以高效地分类和选择最有希望的化合物进行昂贵的对接计算。该平台高度可扩展和可并行化，适用于大规模虚拟筛选。

RosettaVS 在虚拟筛选基准上表现出色

研究人员首先使用评分函数比较评估 2016 (CASF2016) 数据集对 RosettaGenFF-VS 的性能进行基准测试。RosettaGenFF-VS 取得了领先的性能，可以准确区分天然结合姿势和诱饵结构。进一步分析表明，RosettaGenFF-VS 在广泛的配体 RMSD 中都表现出色，与其他方法相比，它可以更有效地搜索最低能量最小值。

接下来，进行了筛选能力测试。RosettaGenFF-VS 的前 1% 富集因子 (EF1% = 16.72) 远远优于次优方法 (EF1% = 11.9)。同样，RosettaGenFF-VS 在识别排名前 1/5/10% 的分子中的最佳结合小分子方面表现出色，超越了所有其他方法。

最后，研究人员进一步评估了 RosettaVS 协议中 VSX 和 VSH 模式在「有用诱饵目录」(DUD) 数据集上的虚拟筛选性能。

图示：RosettaVS 为领先的虚拟筛选方法。（来源：论文）

就受试者工作特征 (ROC) 曲线富集和 ROC 曲线下面积 (AUC) 而言，结果表明 RosettaVS 为领先的虚拟筛选方法。

值得注意的是，RosettaVS 的表现比次优的方法高出两倍（0.5/1.0% ROC 富集），在早期 ROC 富集方面取得了最先进的性能，进一步凸显了 RosettaVS 的有效性。此外，由于它能够模拟由配体引起的口袋侧链的构象变化，VSH 模式略优于 VSX 模式。

先导化合物发现

研究使用 OpenVS 平台筛选针对两种不相关蛋白质的数十亿个化合物库：KLHDC2（一种人类泛素连接酶）和人类电压门控钠通道 NaV1.7。

整个虚拟筛选过程在本地 HPC 集群上在七天内完成，每个目标配备了 3000 个 CPU 和一个 RTX2080 GPU。

图示：深度学习加速虚拟筛选发现 KLHDC2 结合剂。（来源：论文）

图示：深度学习加速虚拟筛选发现 Nav1.7 结合剂。（来源：论文）

从最初的虚拟筛选活动中，研究人员发现了一种 KLHDC2 化合物（命中率为 14%）和四种 NaV1.7 化合物（命中率为 44%），它们都表现出个位数 µM 的结合亲和力。使用该虚拟筛选平台的重点库，可以发现另外六种与 KLHDC2 具有相似结合亲和力的化合物。

图示：KLHDC2-C29 复合物的晶体结构。（来源：论文）

最后，通过 X 射线晶体学验证了 KLHDC2 复合物的对接结构，结果与预测的结合姿势非常一致。这种探索、整理和测试的迭代过程强调了所提方法的稳健性及其在大型分子库中发现有希望的化合物的潜力。

可进一步改进

尽管 RosettaVS 在各个方面都优于现有方法，但仍有进一步改进的空间。

GPU 加速和深度学习模型的集成，例如使用 GPU 加速配体对接或使用生成式 AI 进行有效的姿势生成。
改进替代主动学习模型，以更好地指导化学空间探索，并结合可推广的基于深度学习的评分函数，从而更好地区分真正的结合剂。
能够使用已知的非小分子结合剂作为模板结构来指导小分子虚拟筛选。

未来，基于结构的虚拟筛选与深度学习技术的进一步发展将显著提高虚拟筛选研究的准确性和效率。

理论化合物化学药物研发AI

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

主动学习技术

主动学习是半监督机器学习的一个特例，其中学习算法能够交互式地查询用户（或其他信息源）以在新的数据点处获得期望的输出。在统计学文献中，有时也称为最佳实验设计。

来源：Wikipedia

药物发现技术

在医学，生物技术和药理学领域，药物发现是发现新候选药物的过程。

来源：wiki