2024/07/10 14:55

AlphaFold 3 向解码分子行为和生物计算迈出重要一步，Nature 子刊锐评

编辑 | KX

如果我们完全了解分子之间是如何相互作用的，那么生物学就没什么可学的了，因为每一种生物现象，包括我们如何感知世界，最终都源于细胞内生物分子的行为和相互作用。

最近推出的 AlphaFold 3 可以直接从蛋白质、核酸及其配体的序列中预测生物分子复合物的 3D 结构。这标志着我们在长期探索生物分子如何相互作用方面取得了重大进展。

AlphaFold 3 代表了直接从复合物序列预测其三维结构的突破，为生物分子相互作用提供了见解。

生物分子（如蛋白质或核酸）的一维 (1D) 序列以类似于一段代码指定程序的方式指定细胞功能。该序列表示编程语言中的代码，并通过折叠过程「编译」成机器语言中的代码，形成独特的 3D 结构。该程序由折叠的生物分子与细胞内其他分子之间的相互作用执行。

由于其独特的三维结构，生物分子只会与细胞内的一小部分分子（例如 DNA 位点）相互作用，这些相互作用将引发一系列精心策划的化学和结构转化，共同定义生化程序（如转录）。生化过程的产物（如 RNA）代表执行程序的输出。

因此，在生物学中，生物分子的一维序列编码了程序以及编译和执行程序的方法；该序列编码了软件和硬件。根据生物分子的一维序列预测其复合物形成的三维结构是理解生物程序如何执行的关键步骤，对我们理解、合理操纵和设计生物系统的能力具有深远的影响。

图示：分子生物学的「计算教条」。（来源：论文）

50 多年来，科学家一直在努力破译「编译器」，开发能够根据氨基酸序列预测蛋白质等生物分子三维结构的算法。

2020 年，DeepMind 发布了 AlphaFold 2，标志着一场革命的开始。AlphaFold 2 可以以前所未有的中位准确率预测蛋白质结构，优于其他结构预测方法。通过提供超过 2 亿种已知蛋白质的预测结构，AlphaFold 2 已成为全球科学家的宝贵工具，它改变了基础和应用生物学研究，并为蛋白质结构预测的长期挑战提供了解决方案。

AlphaFold 2 的成功激发了人们转向使用深度学习方法来预测复合物的结构。2021 年，华盛顿大学团队研发出了一款基于深度学习的蛋白质预测新工具 RoseTTAFold，在预测蛋白质结构上取得了媲美 AlphaFold2 的超高准确率，而且速度更快、所需要的计算机处理能力也较低。

RoseTTAFold 利用多轨神经网络实现了接近 AlphaFold 2 的高预测精度，暗示了深度学习模型在根据生物分子序列预测复合物结构方面的真正潜力。

RoseTTAFold 推出后不久，人们发现，只需进行少量修改，AlphaFold 2 就能以合理的精度预测蛋白质-蛋白质复合物的结构。接着 AlphaFold Multimer 发布，其证明了在包含多链蛋白质复合物的结构数据集上训练 AlphaFold 2 在改进蛋白质-蛋白质复合物预测方面的实用性。

尽管取得了这些进展，但预测蛋白质复合物的准确性无法与单个蛋白质相比，而且这些方法无法轻易模拟蛋白质-核酸或蛋白质-配体复合物。

今年 5 月初，谷歌 DeepMind 推出了 AlphaFold 3，它在预测蛋白质-蛋白质、蛋白质-配体和蛋白质-核酸复合物的 3D 结构方面，已经超越了大多数专业的先进工具。AlphaFold 3 在多个测试数据集中实现了预测准确率的显著提升。

值得注意的是，AlphaFold 3 在 2 Å 的实验误差范围内，预测了大约 80% 的蛋白质-配体复合物，优于 AutoDock Vina 和 RoseTTAFold 等其他方法。AlphaFold 3 在预测蛋白质-DNA 和蛋白质-RNA 复合物方面也取得了卓越的准确性，并且在预测蛋白质-蛋白质复合物方面优于 AlphaFold Multimer，尤其是对于抗体-抗原相互作用。

此外，AlphaFold 3 在预测包含蛋白质、DNA 和 RNA 残基中各种共价修饰的结构方面也取得了相当的性能，目前尚无竞争方法。这些结果共同证明了 AlphaFold 3 在预测广泛的生物分子复合物的准确性方面取得了相当大的进步，凸显了该模型的底层通用性和多功能性。

AlphaFold 3 实现这一壮举得益于几次更新。也许最重要的是用新的扩散模块替换旧的结构模块，该模块经过训练可以直接预测单个原子的笛卡尔坐标，并且可以推广到更广泛的化学空间。

图示：为 AlphaFold 3 的扩散模块提供动力的扩散过程的说明性示例。（来源：论文）

作为 AlphaFold 3 的简化说明，可以想象在一个典型的生物分子复合体中，取每个原子的三维坐标，并迭代地向其中添加越来越多的高斯噪声，直到我们得到一个随机分布的空间原子云，这个过程通常称为「正向扩散」。扩散模型使用多层神经网络来学习逆转这个过程，这个过程称为「反向扩散」。

通过这种方式，AlphaFold 3 中的扩散模块基本上学会了预测给定复合物中每个原子的坐标，而无需像 AlphaFold 2 中那样使用任何预定义的残基框架，从而包含核酸、离子、配体和化学修饰在内的更广泛的化学空间。

AlphaFold 3 还用 Pairformer（一种更新的 Transformer 架构）取代了 Evoformer，减少了对 MSA 处理的重视，从而简化了整体网络架构。Pairformer 仅保留序列和「配对表示」以供下游处理，现在分别从 MSA 和结构模板中捕获所有经过处理的进化和结构信息。用于优化和训练神经网络的指标也进行了更新，以便更好地适应网络架构的变化，更适用于预测生物分子复合物。

通过在统一的神经网络架构中使用这些改进，AlphaFold 3 减少了对序列比对的依赖，增加了对残基之间相互作用的重视，并将其结构模块推广到更广泛的化学空间，从而提高了对蛋白质和其他生物分子复合物结构的预测精度。

尽管 AlphaFold 3 取得了进步，但仍有几个方面需要改进。AlphaFold 3 有时无法正确模拟分子的手性，有时无法预测大型（总残基超过 2,000 个）蛋白质-核酸复合物的结构，因为相互作用的残基之间存在严重的空间冲突。此外，诸如扩散模块之类的生成模型可能会出现「幻觉」，识别出本质上无序的区域中的结构顺序。

研究人员评估了 AlphaFold 3 对十个可用 CASP15 RNA 靶标的预测准确性，发现与 RoseTTAFold2NA 和 AIchemy_RNA 相比，其准确性更高。然而，在预测 3D RNA 结构方面，AlphaFold 3 的表现不如顶级人类专家辅助 CASP15 提交 Alchemy_RNA2。这些例子说明了，需要在进行生物实验的同时，追求计算上的突破，以检验他们的预测。

DeepMind 推出了 AlphaFold 服务器，它为非商业研究人员提供了一个用户友好的界面，以生成生物分子复合物的 AlphaFold 预测。与其前身 AlphaFold 2 相比，AlphaFold 3 的源代码和可执行文件不公开。提供了伪代码来代替源代码。这为更广泛的科学界对 AlphaFold 3 进行广泛测试带来了障碍，导致该领域内持续激烈的争论，也可能阻碍其未来的进一步发展。

在考虑 AlphaFold 3 带来的结构预测突破时，重要的是要记住，结构生物学的目标不是预测生物分子及其复合物的 3D 结构，而是预测它们的行为以及执行生物程序时会发生什么。例如，从转录因子及其 DNA 结合伙伴的 3D 结构来看，我们无法预测它们彼此结合的紧密程度或速度，以及当我们通过突变残基来改变程序时这些分子行为将如何变化。这些信息是准确预测执行转录程序的结果所必需的。

为了在预测分子行为方面取得进展，我们必须认识到结构预测问题并不像看起来那么明确。生物分子及其复合物不会折叠成单一结构，而是形成数千种不同构象的集合，每种构象都有不同的概率和寿命。

了解这些构象景观以及它们在生物分子相互作用时如何变化，对于定量预测亲和力和动力学速率至关重要。因此，我们需要一个新的「编译器」，可以解码由生物分子的一维序列编码的动态信息，以及可以利用这种三维结构的动态表示来更好地预测执行程序的结果的模型。

从各种条件下的序列预测构象集合是我们现在必须集中精力解决的问题，从而获得对分子行为的定量和预测性理解。训练神经网络从序列预测集合需要大量实验确定的集合数据集。然而，实验确定的构象集合的数量目前仅限于几十个。

因此，尽管利用 AlphaFold 3 根据生物分子序列预测其自由和相互复合的 3D 结构，是理解分子行为和生物计算的重要一步，但实验人员不必担心被淘汰。结构生物学领域即将变得更加充满活力。

论文链接：https://www.nature.com/articles/s41594-024-01350-2

理论深度学习神经网络AlphaFold 3

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

伪代码技术

伪代码，又称为虚拟代码，是高层次描述算法的一种方法。它不是一种现实存在的编程语言；它可能综合使用多种编程语言的语法、保留字，甚至会用到自然语言。它以编程语言的书写形式指明算法的职能。相比于程序语言它更类似自然语言。它是半形式化、不标准的语言。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统，是DeepMind在2017-2018年中一直在研究的项目，它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多，在生物学的核心挑战之一上取得了重大进展。

来源：机器之心 DeepMind博客

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科