Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋白预测从数月缩短至数小时,MassiveFold出于AlphaFold而胜于AlphaFold3

图片

编辑 | KX

蛋白质结构预测领域正处于发展的黄金时代。生物技术研究在很大程度上依赖于发现正确的蛋白质结构来执行所需的任务,这对几乎所有生物技术领域都有影响,从食品到药品、从时尚到生物燃料、从洗衣粉到农业......

AlphaFold 已经彻底改变了蛋白质结构预测,使单链和复杂蛋白质组装的建模成为可能。然而,它需要大量计算并且耗时。

在此,法国里尔大学(Université de Lille)、瑞典林雪平大学(Linköping University)的科学家提出了 MassiveFold,这是 AlphaFold 的优化和可定制版本,可将蛋白质结构预测的计算时间从数月大幅缩短至数小时。

比较分析表明,MassiveFold 可以为多个 CASP15 靶标生成良好的模型,有时甚至优于 AlphaFold3。

MassiveFold 有效地增强了蛋白质和蛋白质组装的结构建模,同时降低了计算成本,提高了预测质量,并可在各种硬件设置中扩展。其可以在从单台计算机到大型 GPU 基础设施的任何设备上运行,从而充分利用所有计算节点。

相关研究以《MassiveFold: unveiling AlphaFold’s hidden potential with optimized and parallelized massive sampling》为题,于 11 月 11 日发表在《Nature Computational Science》上。

图片

论文链接:https://www.nature.com/articles/s43588-024-00714-4

AlphaFold 需要大量计算且耗时

AlphaFold 中的大规模采样可以提高结构多样性。结合其高效的置信度排名,这可以提高单体结构和蛋白质组装的建模能力。然而,这种方法在 GPU 成本和数据存储方面存在困难。

研究表明,大量采样可以揭示单体和蛋白质复合物的结构多样性和构象变异性,包括纳米抗体复合物和抗原抗体相互作用等复杂组装。但是,这种高采样虽然提高了预测准确性,但在 GPU 需求和较长处理时间方面也面临着重大挑战。

具体而言,AlphaFold 对图形处理单元 (GPU) 的高需求及其无法并行运行造成了实际限制。标准 AlphaFold-Multimer 运行,尤其是对于大型组装,通常会超过计算基础设施设置的 GPU 集群时间,从而阻碍复杂预测的完成。这使得在现有的 GPU 资源限制内难以充分发挥 AlphaFold 的全部潜力,这促使人们开发更有效的单链和复杂结构预测解决方案。

MassiveFold 甚至优于 AlphaFold3?

为了应对这些挑战,法国里尔大学的研究人员开发了 MassiveFold,这是 AlphaFold 的并行化、可定制版本,它将计算任务分配到 CPU 和 GPU 之间,以加速蛋白质结构的预测。

MassiveFold 将 AlphaFold 的框架与 AFsample 的增强采样和 ColabFold 的附加功能相结合。MassiveFold 是一个并行化引擎,它调用结构预测工具,该工具可以是 AFmassive(研究人员与 MassiveFold 一起开发的 AFsample 的扩展版本)或 ColabFold,然后对结果进行后处理。其他结构预测引擎将来可以集成到 MassiveFold 中,前提是它们启用了大规模采样。

MassiveFold 包括 AlphaFold 迄今为止发布的所有版本的神经网络 (NN) 模型,包含导致结构多样性增加的多个参数,并且可以指示仅保留最有希望的预测结果。该程序可以并行运行许多实例,每个 GPU 最多可以进行一次预测,因此可以最佳地利用可用的计算基础设施,并大大缩短获得预测结果所需的时间,从几个月缩短到几个小时。

MassiveFold 可通过 conda 环境轻松安装,使用简单,只需使用 JavaScript 对象表示法 (JSON) 参数文件运行简单的命令行即可。

为了能够完全访问多样性参数,MassiveFold 集成了优化的并行化,该并行化由三部分组成:(1) 在中央处理器 (CPU) 上进行比对计算,(2) 在 GPU 上分成多个批次的结构推断,以及 (3) 在 CPU 上进行最终的后处理步骤,收集结果、对所有预测进行排序并生成图表。

图片

图 1:MassiveFold 自动处理的计算过程。(来源:论文)

MassiveFold 的后处理汇总了所有预测结果并生成了多个图。

图片

图 2:MassiveFold 使用 AFmassive 生成的用于 CASP15 多聚体靶标 H1140 结构预测的图表。(来源:论文)

研究发现 MassiveFold 可通过调整采样参数、回收和 dropout 有效提高蛋白质结构预测的多样性和置信度,从而为复杂的蛋白质靶标生成高置信度结构。例如,在 CASP15 H1140 靶标中,MassiveFold 可通过扩展采样和使用无模板 dropout 生成具有高置信度分数的多个不同结构。

图片

在 CASP15 靶标上对 MassiveFold 和 AlphaFold3 进行比较的测试表明,MassiveFold 的大规模采样方法为八个靶标中的七个生成了良好的模型,而 AlphaFold3 仅在八个靶标中的三个上略胜于 MassiveFold。

未来,将 AlphaFold3 与 MassiveFold 整合

未来,可以将 AlphaFold3 集成到 MassiveFold 中,结合两种工具的独特优势,从而进一步增强抗体-抗原预测模型。

MassiveFold 显著缩短了蛋白质结构预测的计算时间,从数月缩短到数小时。这种效率的提升,可以使研究人员能够更快地获得结果,从而加速蛋白质建模和相关科学领域的进步。

此前,AlphaFold 中的大规模采样已用于生成大量蛋白质结构预测,来探索各种可能的构象,从而提高对复杂蛋白质组装建模的准确度。

MassiveFold 解决了传统 AlphaFold 应用程序面临的高 GPU 资源需求和数据存储挑战。它能够并行运行预测,即使在计算资源有限的情况下也非常实用。

MassiveFold 还具有可扩展性和可定制性,能够在从单台计算机到大型 GPU 基础设施的任何设备上运行。这种灵活性使其能够充分利用所有可用的计算节点,使其可用于各种研究环境。

根据这项研究,该程序易于使用和安装,只需要一个带有 JSON 参数文件的简单命令行。

MassiveFold 的代码在 GitHub 和 Zenodo 上公开可用。

GitHub 地址:https://github.com/GBLille/MassiveFold

参考内容:https://phys.org/news/2024-11-massivefold-customizable-version-alphafold-protein.html 

https://www.news-medical.net/news/20241112/MassiveFold-advances-protein-structure-prediction-with-efficient-parallel-processing.aspx

理论蛋白质结构预测AlphaFold3
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

推荐文章
暂无评论
暂无评论~