只需1台CPU跑600多秒，GNN快速有效优化蛋白质模型 | 机器之心

前两天，华盛顿大学 Davide Baker 团队开发的 RoseTTAFold和DeepMind 团队开发的 AlphaFold2 源代码公布，并在同一天分别发表在《Science》《Nature》两大期刊上，使得基于深度学习进行蛋白质结构预测再次成为 AI 社区热议的话题。

说起用深度学习预测蛋白质结构，就不得不提到芝加哥丰田计算技术研究所的许锦波教授，他带领的团队开发的 RaptorX 将 ResNet 应用到蛋白质结构预测，大大地提高了预测精度，被认为是该领域第一个在实验上可行的深度学习方法，激活了蛋白质结构预测这个曾经很长时间进展缓慢的领域。经过不断迭代，最新一代版本已经不再需要共进化信息，并在预测人工设计的蛋白质结构时表现得更好。

随着 GNN 的兴起，再加上图表示更适合蛋白质等生物结构，许教授团队就有了探索基于 GNN 进行蛋白质结构预测的想法。研究发现，在某些情况下，GNN比 ResNet 的模型优化程度更高，可以将预测出的蛋白质三级结构优化成与实际蛋白质更为接近的 3D 模型，其效果跟基于分子动力学的传统方法接近，但速度却是传统方法的几百倍，只需一个 CPU 花上 10 分钟左右就可以完成一个蛋白质模型的优化。

这项最新的研究成果于 7 月 15 日以「Fast and effective proteinmodel refinement using deep graph neural networks」为题发表在杂志《Nature Computational Science》上。

高精度的蛋白质结构预测有助于在分子水平上理解生物过程。在过去的几年中，蛋白质结构预测有了巨大的进步。然而，一些预测的蛋白质结构模型仍然与它们的天然结构有很大的偏差，这限制了它们在下游应用中的价值。

蛋白质模型优化（Protein model refinement）作为提高蛋白质预测模型质量的最后一步，旨在改进初始模型，生成更高质量的新模型。目前已有一些成功的优化方法，例如：密歇根州立大学的Feig 团队开发的基于分子动力学模拟的模型采样（conformation sampling）方法，华盛顿大学的Baker团队开发的 DeepAccNet，首尔国立大学的Seok 团队开发的 GalaxyRefine2。

尽管这些方法在某些蛋白质上表现良好，但它们都依赖于大量的模型采样，因而需要大量计算资源来完善蛋白质模型，即使是单个蛋白质模型也需要数小时或数天的时间来改进。

许锦波教授团队提出了一种快速有效的模型优化方法——GNNRefine。该方法应用图神经网络（GNN），从初始模型中预测「优化的原子间距离概率分布」，然后根据预测的距离分布重建三维模型。

经过严格的测试，许教授团队的方法具有与 Feig团队和 Baker 团队的方法相当的准确性，但运行速度要快很多。该方法在一个 CPU 上优化一个蛋白质模型，平均耗时不超过 11 分钟；而 Feig 团队的方法在一个 GPU 上优化一个小的蛋白质模型大约需要 16 小时，Baker团队的方法优化一个模型平均需要在 60 个 CPU 上耗时约 30 小时。

研究还表明，如果只允许非常有限的模型采样时，GNN 的性能明显优于 ResNet （卷积残差网络）。

GNNRefine方法

GNNRefine主要包括三个步骤：

将初始模型表示为图并从初始模型中提取原子、残基和模型的几何特征；
使用GNN预测图中每条边的优化距离；
将预测的距离概率转换为距离势能函数，并将其输入 PyRosetta FastRelax中，通过侧链组装和能量最小化生成优化后的模型。

GNNRefine 主要由三个模块组成：一个原子嵌入层、多个消息传递层和一个输出层。

GNNRefine示意图

在CASP13、CASP14测试数据上的性能

GNNRefine 在 CASP13、CASP14 测试模型上都取得了良好的效果，成功优化了多个模型，并且每个模型的优化全程不超过15分钟。

CASP13和CASP14优化目标数据来源：
https://predictioncenter.org/

CASP13：将 GNNRefine 方法与 CASP13 优化类别中人工组的两种方法以及服务器组中的五种方法进行比较，研究表明，使用该方法来优化蛋白质预测模型是非常安全的（也就是说很少把初始模型优化坏了）。

在CASP13优化目标上的性能

CASP14：在 37 个 CASP14 优化目标上对 GNNRefine 方法进行测试，并与人工组和服务器组中排名靠前的方法进行比较。研究表明，CASP14 模型比 CASP13 模型更难改进。但总体来说，该方法在 CASP14 优化目标上比 Feig 团队和 Baker 团队的方法表现稍差（可能因为Feig和Baker团队都用了额外的信息），但比其他方法都要更好。

对所有CASP14优化目标的性能

其中有5 个 CASP 测试模型（3 个 CASP13 模型和 2 个 CASP14 模型）， GNNRefine把它们的质量提高了至少10分（ΔGDT-HA ≥10）。

GNNRefine优化的成功示例

未来展望

许锦波团队表示：GNNRefine 方法可以更准确地估计「现有边的距离概率分布」，但无法检测「缺失的边」；因此如果初始蛋白质模型的图形表示中有许多「错误或缺失的边」，则其性能可能会受到影响。然而，优化方法通常用于质量还可以的蛋白质模型，这些模型往往具有很大比例的正确「图边」。

值得一提的是，该方法目前在 AlphaFold2 的模型优化上表现不佳。为了进一步得到高质量的蛋白质模型，除了生成更好的训练模型外，许教授团队还计划通过开发「端到端框架」来改进其方法。具体来说，他们计划将蛋白质的 MSA 作为输入。MSA 中编码的协同进化信息可以帮助 GNNRefine 更准确地预测残基间相互作用，从而导致更好的优化蛋白质模型。同时，还将研究个体蛋白质序列和 MSA的自我监督学习的实用性。

目前，「原子嵌入」对于优化模型并没有太大帮助。研究人员将通过利用原子的化学背景并使用更准确的侧链原子生成训练蛋白质模型来改进它。将来，许教授团队还将使用深度学习直接预测（主链和侧链）原子的 3D 坐标，而不是残基间距离概率分布。这将避免使用能量最小化方法来构建 3D 模型，并有可能提高模型质量。研究人员还将在训练集中添加更多更高质量的 3D 蛋白质模型，以便深度学习可以学习优化高质量的蛋白质模型。

论文链接（点击下方阅读原文，可查看论文原文）：https://www.nature.com/articles/s43588-021-00098-9

开源地址：http://raptorx.uchicago.edu/