2024/11/22 17:20

无需预训练，亲和力与天然蛋白相当，中国科大的蛋白质从头设计方法登Nature子刊

编辑 | 白菜叶

在过去的 2-3 年里，去噪扩散概率模型 (DDPM) 在生成高质量文本、图像和视频方面取得了前所未有的成功。这激发了人们对在蛋白质结构的从头设计中使用生成式 DDPM 的热情。

然而，大多数此类研究都遇到了相当大的困难，无法获得可以轻松生成可通过高分辨率结构分析验证的无缺陷蛋白质结构的 DDPM。

在这里，中国科学技术大学生命科学与医学部刘海燕教授、陈泉教授团队提出了 SCUBA-diffusion（SCUBA-D），这是一种蛋白质主链去噪扩散概率模型，通过考虑序列表示的共扩散进行新训练，以增强模型正则化和对抗性损失，以最大限度地减少数据分布外误差。

在生成实验可实现的蛋白质结构方面，SCUBA-D 与基于预训练 RoseTTAFold 的 RFdiffusion 的性能相当，但它可以轻松生成尚未观察到的整体折叠与 RoseTTAFold 可预测的折叠不同的蛋白质结构。

SCUBA-D 的准确性已通过 16 种设计蛋白质和一种蛋白质复合物的 X 射线结构以及验证设计的血红素结合蛋白和 Ras 结合蛋白的实验得到证实。

这项工作表明，通过解决数据分布误差等突出问题，图像或文本的深度生成模型可以有效地扩展到蛋白质结构等复杂的物理对象。

该研究以「De novo protein design with a denoising diffusion network independent of pretrained structure prediction models」为题，于 2024 年 10 月 9 日发布在《Nature Methods》。

从头蛋白质设计旨在生成针对特定功能的人工蛋白质，其主要问题是生成可设计且物理上合理的蛋白质结构，即可被某些氨基酸序列自主采用的蛋白质结构。

到目前为止，唯一能够应对这个任务的 DDPM（至少在一定程度上）是 RFdiffusion，它依赖于对预训练结构预测网络 RoseTTAFold 进行微调，以完成各种结构去噪任务。

为了避免潜在偏差的继承，这是预训练结构预测网络的一个限制，科学家旨在开发新训练的 DDPM，其性能至少与 RFdiffusion 相当，但不依赖于以前的结构预测网络。

同时，科学家还希望从此类研究中获得的洞察力和理解将加速未来用于生物分子结构预测的生成式 DDPM 的发展。

在这里，通过结合数据恢复和最小化对抗损失的目标进行训练，中国科学技术大学刘海燕教授、陈泉教授团队开发了一种新训练的 DDPM，它可以生成多样化的蛋白质骨架。该模型被命名为 SCUBA-D（sidechain unknown backbone arrangement-diffusion），因为它可以生成可设计的骨架而无需预先确定氨基酸序列。

在前期工作中，该团队建立并实验验证了利用神经网络能量函数从头设计主链结构的 SCUBA 模型（Nature 2022），SCUBA-D 是基于深度学习的主链设计算法的迭代升级。

图示：SCUBA-D 使用经过对抗损失训练的去噪扩散网络来生成可设计的蛋白质主链结构。（来源：论文）

研究人员证明 SCUBA-D 可以执行各种蛋白质设计任务，包括从随机噪声中生成可设计的主链（无条件生成）、围绕用户绘制的、不可设计的初始主链生成可设计的主链（基于草图输入的生成）以及生成主链以支撑预定义基序，具有结合小分子或结合其他蛋白质的功能（基序支架）。

图示：无条件或有偏差的二级结构分布的结构生成。（来源：论文）

团队对 SCUBA-D 在多类蛋白质从头设计任务中的应用进行了实验验证。针对单体结构从头设计任务，团队对共计70条设计序列进行了实验表征，其中近 80% 的序列（53 条）可溶表达，实验解析的 16 个高分辨晶体结构与目标结构高度一致（主链原子位置均方根位移在 0.96 到 2.11Å 之间）。

在小分子结合蛋白设计任务中，团队对非经典血红素降解酶进行了保留结合位点的主链结构重设计，对设计的 12 条序列进行实验验证，其中 5 条具有与血红素的结合能力，三条序列与血红素的亲和力与天然蛋白相当或高于天然蛋白。

在结合蛋白设计任务中，30个人工设计的 Ras 结合蛋白 14 个与 Ras 有相互作用，其中 3 个设计蛋白与 Ras 的结合亲和力与天然蛋白相当，复合物晶体结构更进一步验证了设计的精确度。

图示：SCUBA-D 用于设计蛋白质结合蛋白。（来源：论文）

与其他刚训练好的蛋白质结构 DDPM 不同，SCUBA-D 不只考虑了通常的数据恢复目标，还考虑了最小化对抗损失这一额外目标。这使得 SCUBA-D 能够生成比其他刚训练好的 DDPM 具有更高可设计性的主干。

目前，只有 Chroma 和 SCUBA-D 能够通过实验解决使用新训练的 DDPM 设计的蛋白质结构。Chroma 研究考虑了 300 多种设计蛋白质进行实验表征，并仅报告了两种全螺旋蛋白质的晶体结构，这反映了使用常规数据恢复目标训练的 DDPM 在生成可通过高分辨率实验确认的蛋白质结构方面存在困难。

相比之下，由于模型训练时增加了最小化对抗损失的目标，SCUBA-D 取得了比其他刚训练好的 DDPM 更广泛的实验成功率。

此外，使用 SCUBA-D 成功设计全 β 蛋白质可被视为使用 DDPM 设计蛋白质骨架的重要一步。这些结果强调了考虑物理约束对象（例如蛋白质结构）与非物理约束对象（例如图像和文本）之间的不同容错能力的重要性。

这种洞察力可用来加速深度生成方法的扩展，这些方法在生成计算机对象方面具有明显的优势，可以生成需要物理上合理的对象，包括可设计的核酸结构和蛋白质-核酸复合物。

相关内容：https://www.nature.com/articles/s41592-024-02465-6

论文链接：https://www.nature.com/articles/s41592-024-02437-w

产业

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达（多变量）数据的概率分布。有基于无向图模型（马尔可夫模型）的联合概率分布模型，另外就是基于有向图模型（贝叶斯模型）的条件概率分布。前者的模型是构建隐含层(latent)和显示层（visible)的联合概率，然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布，也就是给定一个随机采样的隐含层，模型可以生成数据。生成模型的训练是一个非监督过程，输入只需要无标签的数据。除了可以生成数据，还可以用于半监督的学习。比如，先利用大量无标签数据训练好模型，然后利用模型去提取数据特征（即从数据层到隐含层的编码过程），之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型，当然，两个模型需要结构一致。

来源：机器之心 UT

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社