2025/03/31 14:04

比Rosetta快250倍，亲和力提升百倍，David Baker开发原子上下文条件蛋白序列设计新工具

编辑 | 萝卜皮

小分子、核苷酸和金属离子条件下的蛋白质序列设计，对于酶和小分子结合剂以及传感器设计至关重要。但是，当前最先进的深度学习序列设计方法无法对非蛋白质原子和分子进行建模。

华盛顿大学的 Cameron Glasscock、David Baker 团队提出了一种基于深度学习的蛋白质序列设计方法，称为 LigandMPNN，该方法可以模拟生物分子系统的所有非蛋白质成分。

对于与小分子（63.3% 对比 50.4% 和 50.5%）、核苷酸（50.5% 对比 35.2% 和 34.0%）和金属（77.5% 对比 36.0% 和 40.6%）相互作用的残基，LigandMPNN 在天然主链序列恢复方面明显优于 Rosetta 和 ProteinMPNN。

LigandMPNN 不仅能生成序列，还能生成侧链构象，以便详细评估结合相互作用。LigandMPNN 已用于设计 100 多种经过实验验证的小分子和 DNA 结合蛋白，这些蛋白具有高亲和力和高结构准确性；对 Rosetta 小分子结合剂设计的重新设计使结合亲和力提高了 100 倍。

该研究以「Atomic context-conditioned protein sequence design using LigandMPNN」为题，于 2025 年 3 月 28 日发布在《Nature Methods》。

从头蛋白质设计能够创造具有新功能的新型蛋白质，例如催化、DNA、小分子和金属结合以及蛋白质-蛋白质相互作用。

从头设计通常分三个步骤进行：首先，生成预测接近最佳的执行新期望功能的蛋白质主链；其次，设计每个主链的氨基酸序列，以驱动折叠到目标结构并产生功能所需的特定相互作用（例如，酶活性位点）；第三，使用结构预测方法进行序列结构兼容性过滤。

在这里，重点介绍第二步，即蛋白质序列设计。为了解决这个问题，已经开发了基于物理的方法（例如 Rosetta）和基于深度学习的模型（例如 ProteinMPNN、IF-ESM 等）。

基于深度学习的方法在设计蛋白质骨架序列方面优于基于物理的方法，但目前可用的模型无法结合非蛋白质原子和分子。

例如，ProteinMPNN 明确仅考虑蛋白质主链坐标，而忽略任何其他原子背景，这对于设计酶、核酸结合蛋白、传感器和所有其他涉及与非蛋白质原子相互作用的蛋白质功能至关重要。

为了实现更广泛的蛋白质功能的设计，David Baker 团队着手开发一种用于蛋白质序列设计的深度学习方法，该方法可以明确模拟完整的非蛋白质原子背景。他们试图通过推广 ProteinMPNN 架构来纳入非蛋白质原子来实现这一点。

与 ProteinMPNN 一样，研究人员将蛋白质残基视为节点，并根据 Cα–Cα 距离引入最近邻边，以定义稀疏蛋白质图；蛋白质主链几何形状通过 N、Cα、C、O 和 Cβ 原子之间的成对距离编码到图边中。

然后使用具有 128 个隐藏维度的三个编码器层处理这些输入特征，以获得中间节点和边缘表示。他们尝试引入两个额外的蛋白质-配体编码器层来编码蛋白质-配体相互作用。

Baker 团队推断，当主链和配体原子在空间中固定时，只有在紧邻的（~10 Å 以内）配体原子会影响氨基酸侧链的身份和构象，因为配体和侧链之间的相互作用（范德华力、静电力、排斥力和溶剂化力）范围相对较短。

为了将信息从配体原子转移到蛋白质残基，他们构建了一个蛋白质-配体图，以蛋白质残基和配体原子为节点，以每个蛋白质残基和最近的配体原子之间的边为边。还为每个蛋白质残基构建了一个完全连通的配体图，以其最近邻的配体原子为节点；配体原子之间的信息传递增加了通过配体-蛋白质边传递给蛋白质的信息的丰富性。

蛋白质-配体编码器由两个消息传递块组成，它们会更新配体图表示，然后更新蛋白质-配体图表示。蛋白质-配体编码器的输出与蛋白质编码器节点表示相结合，并传递到解码器层。他们将这种组合蛋白质-配体序列设计模型命名为 LigandMPNN。

图示：LigandMPNN 模型。（来源：论文）

为了便于设计对称和多状态蛋白质，研究人员使用随机自回归解码方案来解码氨基酸序列，就像 ProteinMPNN 的情况一样。通过添加配体原子几何编码和额外的两个蛋白质-配体编码器层，LigandMPNN 神经网络拥有 262 万个参数，而 ProteinMPNN 拥有 166 万个参数。

这两个网络都是高速且轻量级的（ProteinMPNN 0.6 秒，LigandMPNN 0.9 秒，在单个 CPU 上处理 100 个残基），并根据蛋白质长度线性扩展。他们通过随机选择一小部分蛋白质残基（2-4%）并使用它们的侧链原子作为背景配体原子以及任何小分子、核苷酸和金属背景来扩充训练数据集。虽然这种增强并没有显著提高序列恢复率，但以这种方式训练也使得侧链原子坐标能够直接输入到 LigandMPNN 中，从而稳定相关的功能位点。

LigandMPNN 是在蛋白质数据库 (PDB；截至 2022 年 12 月 16 日) 中的蛋白质组装体上进行训练的，这些组装体通过 X 射线晶体学或低温电子显微镜确定，分辨率优于 3.5 Å，总长度小于 6,000 个残基。训练-测试拆分基于以 30% 序列同一性截止值聚类的蛋白质序列。

图示：LigandMPNN 序列设计的计算机评估。（来源：论文）

研究人员在包含 317 个蛋白质结构的测试集上评估了 LigandMPNN 序列设计性能，其中 317 个蛋白质结构包含小分子，74 个包含核酸，83 个包含过渡金属。

图示：评估 LigandMPNN 侧链填充精度。（来源：论文）

实验证明，基于深度学习的 LigandMPNN 在设计氨基酸与非蛋白质分子相互作用方面优于基于物理的 Rosetta。它的速度大约快 250 倍（因为完全绕过了对侧链成分进行昂贵的蒙特卡罗优化），并且配体周围天然氨基酸身份和构象的恢复率始终更高。

该方法也更易于使用，因为不需要专家对新配体进行定制（Rosetta 等基于物理的方法可能需要为新化合物提供新的能量函数或力场参数）。

图示：使用 LigandMPNN 对 Rosetta 小分子结合剂设计进行优化。（来源：论文）

最开始，Baker 团队不确定 ProteinMPNN 的准确性是否可以扩展到蛋白质-配体系统，因为可用的训练数据量很少，但其结果表明，对于绝大多数配体，数据是足够的。

尽管如此，研究人员仍然建议在使用 LigandMPNN 设计包含 PDB 中很少出现或根本不出现的元素的化合物的结合剂时要小心（在后一种情况下，需要映射到最接近出现的元素）。基于物理和基于深度学习的方法的混合可能会为低数据状态下的氨基酸和侧链优化问题提供更好的解决方案。

LigandMPNN 已广泛用于设计蛋白质与核酸和小分子的相互作用，这些研究为该方法提供了大量额外的实验验证。在这些研究中，LigandMPNN 要么被用作 Rosetta 序列设计的替代品，保留 RosettaFastDesign 的主链松弛，要么被单独使用而无需主链松弛。

例如，Glasscock 团队开发了一种基于 LigandMPNN 设计蛋白质-DNA 界面的计算方法，其设计的 DNA 结合蛋白晶体结构与模型高度吻合。还有研究团队利用 LigandMPNN 设计了针对小分子的结合蛋白，实验验证了 100 多个蛋白质-DNA/小分子结合界面，其中 5 个共晶结构显示与计算模型高度一致，证实了该方法的有效性。

与 ProteinMPNN 一样，Baker 团队认为 LigandMPNN 将在蛋白质设计中得到广泛应用，从而能够创建新一代小分子结合蛋白、传感器和酶。

GitHub 网址：https://github.com/dauparas/LigandMPNN

相关报道：https://www.nature.com/articles/s41592-025-02626-1

理论

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

来源：百度百科