
编辑 | 萝卜皮
小分子、核苷酸和金属离子条件下的蛋白质序列设计,对于酶和小分子结合剂以及传感器设计至关重要。但是,当前最先进的深度学习序列设计方法无法对非蛋白质原子和分子进行建模。
华盛顿大学的 Cameron Glasscock、David Baker 团队提出了一种基于深度学习的蛋白质序列设计方法,称为 LigandMPNN,该方法可以模拟生物分子系统的所有非蛋白质成分。
对于与小分子(63.3% 对比 50.4% 和 50.5%)、核苷酸(50.5% 对比 35.2% 和 34.0%)和金属(77.5% 对比 36.0% 和 40.6%)相互作用的残基,LigandMPNN 在天然主链序列恢复方面明显优于 Rosetta 和 ProteinMPNN。
LigandMPNN 不仅能生成序列,还能生成侧链构象,以便详细评估结合相互作用。LigandMPNN 已用于设计 100 多种经过实验验证的小分子和 DNA 结合蛋白,这些蛋白具有高亲和力和高结构准确性;对 Rosetta 小分子结合剂设计的重新设计使结合亲和力提高了 100 倍。
该研究以「Atomic context-conditioned protein sequence design using LigandMPNN」为题,于 2025 年 3 月 28 日发布在《Nature Methods》。

从头蛋白质设计能够创造具有新功能的新型蛋白质,例如催化、DNA、小分子和金属结合以及蛋白质-蛋白质相互作用。
从头设计通常分三个步骤进行:首先,生成预测接近最佳的执行新期望功能的蛋白质主链;其次,设计每个主链的氨基酸序列,以驱动折叠到目标结构并产生功能所需的特定相互作用(例如,酶活性位点);第三,使用结构预测方法进行序列结构兼容性过滤。
在这里,重点介绍第二步,即蛋白质序列设计。为了解决这个问题,已经开发了基于物理的方法(例如 Rosetta)和基于深度学习的模型(例如 ProteinMPNN、IF-ESM 等)。
基于深度学习的方法在设计蛋白质骨架序列方面优于基于物理的方法,但目前可用的模型无法结合非蛋白质原子和分子。
例如,ProteinMPNN 明确仅考虑蛋白质主链坐标,而忽略任何其他原子背景,这对于设计酶、核酸结合蛋白、传感器和所有其他涉及与非蛋白质原子相互作用的蛋白质功能至关重要。
为了实现更广泛的蛋白质功能的设计,David Baker 团队着手开发一种用于蛋白质序列设计的深度学习方法,该方法可以明确模拟完整的非蛋白质原子背景。他们试图通过推广 ProteinMPNN 架构来纳入非蛋白质原子来实现这一点。
与 ProteinMPNN 一样,研究人员将蛋白质残基视为节点,并根据 Cα–Cα 距离引入最近邻边,以定义稀疏蛋白质图;蛋白质主链几何形状通过 N、Cα、C、O 和 Cβ 原子之间的成对距离编码到图边中。
然后使用具有 128 个隐藏维度的三个编码器层处理这些输入特征,以获得中间节点和边缘表示。他们尝试引入两个额外的蛋白质-配体编码器层来编码蛋白质-配体相互作用。
Baker 团队推断,当主链和配体原子在空间中固定时,只有在紧邻的(~10 Å 以内)配体原子会影响氨基酸侧链的身份和构象,因为配体和侧链之间的相互作用(范德华力、静电力、排斥力和溶剂化力)范围相对较短。
为了将信息从配体原子转移到蛋白质残基,他们构建了一个蛋白质-配体图,以蛋白质残基和配体原子为节点,以每个蛋白质残基和最近的配体原子之间的边为边。还为每个蛋白质残基构建了一个完全连通的配体图,以其最近邻的配体原子为节点;配体原子之间的信息传递增加了通过配体-蛋白质边传递给蛋白质的信息的丰富性。
蛋白质-配体编码器由两个消息传递块组成,它们会更新配体图表示,然后更新蛋白质-配体图表示。蛋白质-配体编码器的输出与蛋白质编码器节点表示相结合,并传递到解码器层。他们将这种组合蛋白质-配体序列设计模型命名为 LigandMPNN。

图示:LigandMPNN 模型。(来源:论文)
为了便于设计对称和多状态蛋白质,研究人员使用随机自回归解码方案来解码氨基酸序列,就像 ProteinMPNN 的情况一样。通过添加配体原子几何编码和额外的两个蛋白质-配体编码器层,LigandMPNN 神经网络拥有 262 万个参数,而 ProteinMPNN 拥有 166 万个参数。
这两个网络都是高速且轻量级的(ProteinMPNN 0.6 秒,LigandMPNN 0.9 秒,在单个 CPU 上处理 100 个残基),并根据蛋白质长度线性扩展。他们通过随机选择一小部分蛋白质残基(2-4%)并使用它们的侧链原子作为背景配体原子以及任何小分子、核苷酸和金属背景来扩充训练数据集。虽然这种增强并没有显著提高序列恢复率,但以这种方式训练也使得侧链原子坐标能够直接输入到 LigandMPNN 中,从而稳定相关的功能位点。
LigandMPNN 是在蛋白质数据库 (PDB;截至 2022 年 12 月 16 日) 中的蛋白质组装体上进行训练的,这些组装体通过 X 射线晶体学或低温电子显微镜确定,分辨率优于 3.5 Å,总长度小于 6,000 个残基。训练-测试拆分基于以 30% 序列同一性截止值聚类的蛋白质序列。

图示:LigandMPNN 序列设计的计算机评估。(来源:论文)
研究人员在包含 317 个蛋白质结构的测试集上评估了 LigandMPNN 序列设计性能,其中 317 个蛋白质结构包含小分子,74 个包含核酸,83 个包含过渡金属。

图示:评估 LigandMPNN 侧链填充精度。(来源:论文)
实验证明,基于深度学习的 LigandMPNN 在设计氨基酸与非蛋白质分子相互作用方面优于基于物理的 Rosetta。它的速度大约快 250 倍(因为完全绕过了对侧链成分进行昂贵的蒙特卡罗优化),并且配体周围天然氨基酸身份和构象的恢复率始终更高。
该方法也更易于使用,因为不需要专家对新配体进行定制(Rosetta 等基于物理的方法可能需要为新化合物提供新的能量函数或力场参数)。

图示:使用 LigandMPNN 对 Rosetta 小分子结合剂设计进行优化。(来源:论文)
最开始,Baker 团队不确定 ProteinMPNN 的准确性是否可以扩展到蛋白质-配体系统,因为可用的训练数据量很少,但其结果表明,对于绝大多数配体,数据是足够的。
尽管如此,研究人员仍然建议在使用 LigandMPNN 设计包含 PDB 中很少出现或根本不出现的元素的化合物的结合剂时要小心(在后一种情况下,需要映射到最接近出现的元素)。基于物理和基于深度学习的方法的混合可能会为低数据状态下的氨基酸和侧链优化问题提供更好的解决方案。
LigandMPNN 已广泛用于设计蛋白质与核酸和小分子的相互作用,这些研究为该方法提供了大量额外的实验验证。在这些研究中,LigandMPNN 要么被用作 Rosetta 序列设计的替代品,保留 RosettaFastDesign 的主链松弛,要么被单独使用而无需主链松弛。
例如,Glasscock 团队开发了一种基于 LigandMPNN 设计蛋白质-DNA 界面的计算方法,其设计的 DNA 结合蛋白晶体结构与模型高度吻合。还有研究团队利用 LigandMPNN 设计了针对小分子的结合蛋白,实验验证了 100 多个蛋白质-DNA/小分子结合界面,其中 5 个共晶结构显示与计算模型高度一致,证实了该方法的有效性。
与 ProteinMPNN 一样,Baker 团队认为 LigandMPNN 将在蛋白质设计中得到广泛应用,从而能够创建新一代小分子结合蛋白、传感器和酶。
GitHub 网址:https://github.com/dauparas/LigandMPNN
相关报道:https://www.nature.com/articles/s41592-025-02626-1