编辑 | KX
准确预测蛋白质突变效应在蛋白质工程和设计中至关重要。
近日,清华大学龚海鹏团队提出了一套基于几何学习的模型套件——GeoStab-suite,其中包含 GeoFitness、GeoDDG 和 GeoDTm 三个模型,分别用于预测蛋白质突变后的适应度得分、ΔΔG 和 ΔTm。
GeoFitness 采用专门的损失函数,允许使用深度突变扫描数据库中的大量多标记适应度数据对统一模型进行监督训练。为了进一步改进 ΔΔG 和 ΔTm 预测的下游任务,GeoFitness 的编码器被重新用作 GeoDDG 和 GeoDTm 中的预训练模块,来克服缺乏足够标记数据的挑战。
这种预训练策略与数据扩展相结合,显著提高了模型性能和通用性。
在基准测试中,就 Spearman 相关系数而言,GeoDDG 和 GeoDTm 分别比其他最先进的方法高出至少 30% 和 70%。
相关研究以「Improving the prediction of protein stability changes upon mutations by geometric learning and a pre-training strategy」为题,于 10 月 25 日发表在《Nature Computational Science》上。
论文链接:https://www.nature.com/articles/s43588-024-00716-2
蛋白质设计
蛋白质适应度是指蛋白质发挥特定功能的能力,但在不同的实验情况下,通常用不同的指标来量化,例如酶活性、肽结合亲和力和蛋白质稳定性。蛋白质设计和工程的主要目标之一是提高蛋白质适应度,从而提高生物技术和生物制药过程中的蛋白质性能。
在各种蛋白质适应度指标中,蛋白质稳定性备受关注,通常用 ΔG 和 Tm 两个指标来评估。ΔG 表示室温下展开自由能变化,描述蛋白质的热力学稳定性;Tm 代表蛋白质熔化温度,反映蛋白质在温度波动下保持折叠状态的能力。
图示:DMS、ΔΔG 和 ΔTm 数据汇总。(来源:论文)
基于深度突变扫描 (DMS) 数据库可以开发和优化蛋白质适应度预测方法。然而,DMS 数据的多标签特性阻碍了统一预测模型的训练。
与多标记适应度数据不同,突变后蛋白质稳定性的变化明确地由两个指标 ΔΔG 和 ΔTm 定义,实验数据的积累可以开发相应的预测算法。
近年来,ΔΔG 的预测受到了极大的关注。目前的方法主要可分为机制预测器、机器学习预测器和深度学习预测器。与 ΔΔG 预测相比,ΔTm 预测的研究相对较少。
基于几何学习的三个模型
GeoStab 套件包含三个不同的软件程序:GeoFitness、GeoDDG 和 GeoDTm,它们都将蛋白质序列和结构的信息汇总到基于几何学习的编码器中进行预测。
几何编码器采用图注意 (GAT) 神经网络架构,其中节点(一维,1D)代表氨基酸残基,边缘(2D)反映残基间的相互作用。
GeoFitness 是一个统一模型,能够预测所有单个突变的蛋白质变体的适应度景观。具体来说,研究人员设计了一个特殊的损失函数,允许使用 DMS 数据库中的多标记适应度数据训练统一模型。通过这种方式得出的模型避免了实际使用前模型重新训练的先验限制,同时实现了优于其他最先进方法(如 ECNet)的性能。
此外,通过重新利用 GeoFitness 的几何编码器,研究人员开发了两个额外的下游模型 GeoDDG 和 GeoDTm,分别用于预测蛋白质突变后的 ΔΔG 和 ΔTm,模型架构经过专门设计,从而确保预测结果的反对称性。
蛋白质结构信息可以从蛋白质数据库 (PDB) 中获取,也可以使用 AlphaFold2 纯粹基于序列进行预测。因此,研究人员训练了两个版本的 GeoDDG 和 GeoDTm,分别使用后缀「-3D」和「-Seq」来注释依赖于实验结构的版本和实际使用中只需要序列信息的版本。
值得注意的是,研究人员通过两种策略解决了 ΔΔG 和 ΔTm 预测中数据有限的挑战:通过数据收集扩展训练数据以及继承在 DMS 数据库上预训练的 GeoFitness 模型的几何编码器。考虑到蛋白质变体的适应度数据至少比 ΔΔG 和 ΔTm 的数据多一个数量级,以及蛋白质适应度与生物学稳定性的相关性,后一种策略尤其显著提高了模型性能和通用性。
在基准测试集上进行评估时,S669 用于 ΔΔG 和 S571(该研究中的自组集)用于 ΔTm 预测,就预测值和实验值之间的 Spearman 相关系数而言,GeoDDG 和 GeoDTm 分别比其他最先进的方法至少高出 30% 和 70%。
研究人员已经为 GeoStab-suite 建立了一个 Web 服务器,GeoStab-suite 是一套由三个预测因子 GeoFitness、GeoDDG 和 GeoDTm 组成的套件。GeoStab-suite 将成为蛋白质科学领域研究人员的有用工具。