编辑 | KX
蛋白质结构预测领域正处于发展的黄金时代。生物技术研究在很大程度上依赖于发现正确的蛋白质结构来执行所需的任务,这对几乎所有生物技术领域都有影响,从食品到药品、从时尚到生物燃料、从洗衣粉到农业......
AlphaFold 已经彻底改变了蛋白质结构预测,使单链和复杂蛋白质组装的建模成为可能。然而,它需要大量计算并且耗时。
在此,法国里尔大学(Université de Lille)、瑞典林雪平大学(Linköping University)的科学家提出了 MassiveFold,这是 AlphaFold 的优化和可定制版本,可将蛋白质结构预测的计算时间从数月大幅缩短至数小时。
比较分析表明,MassiveFold 可以为多个 CASP15 靶标生成良好的模型,有时甚至优于 AlphaFold3。
MassiveFold 有效地增强了蛋白质和蛋白质组装的结构建模,同时降低了计算成本,提高了预测质量,并可在各种硬件设置中扩展。其可以在从单台计算机到大型 GPU 基础设施的任何设备上运行,从而充分利用所有计算节点。
相关研究以《MassiveFold: unveiling AlphaFold’s hidden potential with optimized and parallelized massive sampling》为题,于 11 月 11 日发表在《Nature Computational Science》上。
AlphaFold 需要大量计算且耗时
AlphaFold 中的大规模采样可以提高结构多样性。结合其高效的置信度排名,这可以提高单体结构和蛋白质组装的建模能力。然而,这种方法在 GPU 成本和数据存储方面存在困难。
研究表明,大量采样可以揭示单体和蛋白质复合物的结构多样性和构象变异性,包括纳米抗体复合物和抗原抗体相互作用等复杂组装。但是,这种高采样虽然提高了预测准确性,但在 GPU 需求和较长处理时间方面也面临着重大挑战。
具体而言,AlphaFold 对图形处理单元 (GPU) 的高需求及其无法并行运行造成了实际限制。标准 AlphaFold-Multimer 运行,尤其是对于大型组装,通常会超过计算基础设施设置的 GPU 集群时间,从而阻碍复杂预测的完成。这使得在现有的 GPU 资源限制内难以充分发挥 AlphaFold 的全部潜力,这促使人们开发更有效的单链和复杂结构预测解决方案。
MassiveFold 甚至优于 AlphaFold3?
为了应对这些挑战,法国里尔大学的研究人员开发了 MassiveFold,这是 AlphaFold 的并行化、可定制版本,它将计算任务分配到 CPU 和 GPU 之间,以加速蛋白质结构的预测。
MassiveFold 将 AlphaFold 的框架与 AFsample 的增强采样和 ColabFold 的附加功能相结合。MassiveFold 是一个并行化引擎,它调用结构预测工具,该工具可以是 AFmassive(研究人员与 MassiveFold 一起开发的 AFsample 的扩展版本)或 ColabFold,然后对结果进行后处理。其他结构预测引擎将来可以集成到 MassiveFold 中,前提是它们启用了大规模采样。
MassiveFold 包括 AlphaFold 迄今为止发布的所有版本的神经网络 (NN) 模型,包含导致结构多样性增加的多个参数,并且可以指示仅保留最有希望的预测结果。该程序可以并行运行许多实例,每个 GPU 最多可以进行一次预测,因此可以最佳地利用可用的计算基础设施,并大大缩短获得预测结果所需的时间,从几个月缩短到几个小时。
MassiveFold 可通过 conda 环境轻松安装,使用简单,只需使用 JavaScript 对象表示法 (JSON) 参数文件运行简单的命令行即可。
为了能够完全访问多样性参数,MassiveFold 集成了优化的并行化,该并行化由三部分组成:(1) 在中央处理器 (CPU) 上进行比对计算,(2) 在 GPU 上分成多个批次的结构推断,以及 (3) 在 CPU 上进行最终的后处理步骤,收集结果、对所有预测进行排序并生成图表。
MassiveFold 的后处理汇总了所有预测结果并生成了多个图。
研究发现 MassiveFold 可通过调整采样参数、回收和 dropout 有效提高蛋白质结构预测的多样性和置信度,从而为复杂的蛋白质靶标生成高置信度结构。例如,在 CASP15 H1140 靶标中,MassiveFold 可通过扩展采样和使用无模板 dropout 生成具有高置信度分数的多个不同结构。
在 CASP15 靶标上对 MassiveFold 和 AlphaFold3 进行比较的测试表明,MassiveFold 的大规模采样方法为八个靶标中的七个生成了良好的模型,而 AlphaFold3 仅在八个靶标中的三个上略胜于 MassiveFold。
未来,将 AlphaFold3 与 MassiveFold 整合
未来,可以将 AlphaFold3 集成到 MassiveFold 中,结合两种工具的独特优势,从而进一步增强抗体-抗原预测模型。
MassiveFold 显著缩短了蛋白质结构预测的计算时间,从数月缩短到数小时。这种效率的提升,可以使研究人员能够更快地获得结果,从而加速蛋白质建模和相关科学领域的进步。
此前,AlphaFold 中的大规模采样已用于生成大量蛋白质结构预测,来探索各种可能的构象,从而提高对复杂蛋白质组装建模的准确度。
MassiveFold 解决了传统 AlphaFold 应用程序面临的高 GPU 资源需求和数据存储挑战。它能够并行运行预测,即使在计算资源有限的情况下也非常实用。
MassiveFold 还具有可扩展性和可定制性,能够在从单台计算机到大型 GPU 基础设施的任何设备上运行。这种灵活性使其能够充分利用所有可用的计算节点,使其可用于各种研究环境。
根据这项研究,该程序易于使用和安装,只需要一个带有 JSON 参数文件的简单命令行。
MassiveFold 的代码在 GitHub 和 Zenodo 上公开可用。
GitHub 地址:https://github.com/GBLille/MassiveFold
参考内容:https://phys.org/news/2024-11-massivefold-customizable-version-alphafold-protein.html
https://www.news-medical.net/news/20241112/MassiveFold-advances-protein-structure-prediction-with-efficient-parallel-processing.aspx