Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

图片

图示:来自测试集的靶标上的 Boltz-1 的示例预测。(来源:论文)

编辑 | 萝卜皮

2024 年 11 月 18 日,麻省理工学院(MIT)的研究人员宣布推出 Boltz-1,这是一个开源模型,旨在准确模拟复杂的生物分子相互作用。

Boltz-1 是第一个完全商业化的开源模型,在预测生物分子复合物的 3D 结构方面达到 AlphaFold3 级精度。

该研究的作者之一,MIT 的 Ph.D Gabriele Corso,第一时间在推特上分享了这一开源事件,网友们纷纷表示祝贺。

图片

图示:网友们对此纷纷表示祝贺。(来源:X)

通过根据 MIT 许可发布训练和推理代码、模型权重和训练数据,该团队旨在将 Boltz-1 打造为全球研究人员的建模主干,为开源结构生物学树立新标准。

图片

技术报告:https://gcorso.github.io/assets/boltz1.pdf

开源代码:https://github.com/jwohlwend/boltz

生物分子相互作用驱动着几乎所有的生物机制,科学家理解这些相互作用后可以指导新疗法的开发和疾病驱动因素的发现。

2020 年,AlphaFold2 证明深度学习模型可以在大量蛋白质序列上达到单链蛋白质结构预测的实验精度。然而,关于在 3D 空间中对生物分子复合物进行建模的一个关键问题仍然悬而未决。

过去几年,研究界在解决这一关键问题方面取得了重大进展。特别是,深度生成模型的使用已被证明可以有效地模拟不同生物分子之间的相互作用,其中 DiffDock 比传统的分子对接方法有显著的改进,AlphaFold3 在预测任意生物分子复合物方面达到了前所未有的准确度。

在最新的研究中,MIT 的研究人开发了 Boltz-1,这是第一个完全可商业访问的开源模型,达到了 AlphaFold3 报告的准确度水平。


通过在 MIT 许可下免费提供训练和推理代码、模型权重、数据集和基准,该团队希望让世界各地的研究人员、开发人员和组织能够使用 Boltz-1 进行实验、验证和创新。

图片

图示:Boltz-1 架构图。(来源:论文)

从高层次上讲,Boltz-1 遵循 Abramson 团队提出的通用框架和架构,但它也提出了一些创新,包括:

1、新算法可以更高效、更稳健地配对 MSA、训练时的裁剪结构以及用户定义的绑定口袋上的条件预测;

2、更改架构中的表示流程以及扩散训练和推理程序;

3、修订置信度模型,包括架构组件以及任务框架,作为对模型主干层的微调。

图片

图示:使用 Kapsch 插值来二维表示 AlphaFold3 反向扩散和 Boltz1 反向扩散之间的差异。(来源:论文)

表现

研究人员在各种数据集上评估了 Boltz-1 与 Chai-1(AlphaFold3 的第一个闭源但公开可用的复制品)的性能,并得出结论:Boltz-1 与 Chai-1 的性能相匹配,因此也与 AlphaFold3 相匹配。

例如,在 CASP15 上进行评估时,Boltz-1 表现出特别强的蛋白质-配体和蛋白质-蛋白质性能,LDDT-PLI 达到 65%,而 Chai-1 为 40%,DockQ>0.23 的比例为 83%,而 Chai-1 为 76%。

图片

图示:Chai-1 和 Boltz-1 在 CASP15 基准和测试集上的表现的视觉摘要。(来源:论文)

局限性

虽然性能强悍,但也存在一些局限性。对 Boltz-1 的几个预测进行目视检查后,发现模型输出中存在幻觉现象。最突出的幻觉类型是将整个链直接叠放在一起。

这些现象表现出两种常见模式:第一种涉及大型复合物中的相同聚合物链,而第二种涉及具有共同子结构的类似配体。

研究人员提出了几种假设来解释这些模式:

1、数据中的重叠链和配体:虽然数据处理流程移除了重叠的聚合物链,但并没有消除重叠的配体。经过仔细检查,研究人员发现 PDB 数据库中的几个示例报告了同一结构内的重叠配体,可能代表替代的结合分子或反应(例如,PDB ID 7X9K)。训练集中的此类结构可能会引入误导性的学习信号。

2、训练裁剪大小不足:由于计算限制,研究人员使用 384 和 512 个标记的裁剪大小来训练模型,这比观察到这些问题的许多复杂结构要小得多。这可能会妨碍模型在训练期间捕捉足够的空间背景的能力。

图片

图示:Boltz-1 预测链的示例相互重叠。(来源:论文)

希望成为人人可用的模型

接下来,研究人员将进一步探索替代训练或微调策略以缓解这些问题,并将其留到模型的未来迭代中。

此次开源发布旨在让世界各地的研究人员和组织能够利用 Boltz-1 进行实验和创新。研究人员设想将 Boltz-1 作为一个基础,研究人员可以在此基础上进行构建,共同推进科学家对生物分子相互作用的集体理解,并加速药物设计、结构生物学等领域的发现。

研究人员在报告中表示:「Boltz-1 的开源发布是向前迈出的激动人心的一步,但这才刚刚开始。我们正在进行重大改进,以增强其对复杂交互进行建模的能力,我们计划在未来几个月内发布这些改进!敬请期待!」

相关内容:

https://x.com/GabriCorso/status/1858180097016250815

https://jclinic.mit.edu/boltz-1/ 

https://www.marktechpost.com/2024/11/17/mit-researchers-propose-boltz-1-the-first-open-source-ai-model-achieving-alphafold3-level-accuracy-in-biomolecular-structure-prediction/

理论AI for Science科学人工智能开源大模型蛋白质
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。比如,先利用大量无标签数据训练好模型,然后利用模型去提取数据特征(即从数据层到隐含层的编码过程),之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型,当然,两个模型需要结构一致。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

推荐文章
暂无评论
暂无评论~