2024/09/13 11:54

抗体亲和力增强17倍，百奥几何、复旦团队AI方法模拟细微蛋白质互作，登Nature子刊

编辑 | 萝卜皮

提高抗体与其靶抗原的结合亲和力是抗体疗法开发中的关键任务。

复旦大学与百奥几何（BioGeometry）团队联合推出了一种可预训练的几何图神经网络 GearBind，展示了其在抗体亲和力成熟中的潜力。

通过多关系图构建、几何消息传递和大规模未标记蛋白质数据的预训练，GearBind 在多个测试集上的表现优于现有方法。

研究人员基于 GearBind 推导出一个强大的集成模型，成功用于增强两种不同抗体的结合能力，实验数据显示设计的抗体突变体显著提升了性能。

该研究以「Pretrainable geometric graph neural network for antibody affinity maturation」为题，于 2024 年 9 月 6 日发布在《Nature Communications》。

抗体在免疫系统中具有关键作用，并因其高亲和力的特异性结合能力，被广泛用于诊断和治疗。

但是，体外抗体亲和力成熟过程耗时且成本高，需要构建突变库和利用展示技术筛选，整个过程通常需要 2-3 个月或更长时间才能完成。同时，由于抗体互补决定区内的突变组合数量巨大，纯生物实验方法难以覆盖所有可能性。

虽然分子动力学方法较为准确，但速度较慢，难以筛选大量突变。近年来，深度学习方法被引入解决亲和力预测问题，但由于数据集规模有限，模型的准确性和可靠性仍面临挑战。

多级几何信息传递模拟蛋白质相互作用

为了应对这些挑战，复旦大学、百奥几何的研究人员引入了 GearBind，这是一种可预训练的深度神经网络，利用多级几何信息传递来模拟细微的蛋白质-蛋白质相互作用。

图示：基于 GearBind 的计算机抗体亲和力成熟管线。（来源：论文）

该团队在大规模蛋白质结构数据集上使用对比预训练技术，将重要的结构见解纳入模型。研究人员进行了大量计算机实验来评估模型的性能。GearBind 的技术优势可以概括如下：

（1）在图构建阶段，在界面上的所有重原子上构建多关系图。定义的关系涵盖了顺序邻近和空间邻近。将全原子图替换为仅主干原子图，或将多关系图替换为简单的 kNN 图都会导致严重的性能下降。

（2）在特征提取阶段，采用多级消息传递方案来全面了解蛋白质界面上复杂的相互作用。

（3）提出了一种基于对比学习的预训练算法，利用 CATH 中丰富的未标记单链蛋白质结构，将侧链扭转角知识提取到模型中，进一步提升模型性能。

GearBind 的强大性能

研究人员用两个现实世界的抗体亲和力成熟项目检验了他们基于 GearBind 的管线。

结果显示，仅合成和测试 20 种候选抗体后，抗体 CR3022 与 Omicron SARS-CoV-2 变体刺突 (S) 蛋白的结合率就通过酶联免疫吸附试验 (ELISA) 测量增加了 17 倍，通过生物层干涉法 (BLI) 测量增加了 6.1 倍。

图示：对 SKEMPI 和 HER2 结合剂测试集进行计算机模拟评估。（来源：论文）

所有设计的抗体均保持或增加了与 SARS-CoV-2 Delta 变体和 SARS-CoV 的受体结合域 (RBD) 的结合。

在测试了 12 种候选抗体后，通过 ELISA 测量，全人单域抗体（UdAb）与癌胚抗原 5T4 的结合增加了高达 5.6 倍，通过 BLI 测量，增加了高达 2.1 倍。

图示：优化的 CR3022 和抗 5T4 UdAb 的结构分析。（来源：论文）

简而言之，GearBind 被证明是一种高效且强大的工具，可用于设计具有增强结合亲和力的抗体。根据 GearBind 流程识别出的最佳突变体的分子动力学模拟，研究人员观察到他们的设计通过创建新的相互作用或加强现有的接触（尤其是氢键）来增强结合亲和力。这让研究人员得以了解 GearBind 如何从数据中学习并设计出增加结合亲和力的突变体。

评估其他方法带来新论点

虽然这项研究主要关注基于结构的方法，但是对于其他团队已经探索了的纯基于序列的亲和力成熟模型，研究人员也进行了评估。他们对 SKEMPI 上的 ESM-1b 和 ESM-1v 模型的评估得出了负的 SpearmanR 值，这暗示大规模蛋白质语言模型的零样本预测不是对蛋白质复合物的结合亲和力进行排序的普遍可靠方法。

图示：通过 per-PDB 评估 SKEMPI 数据集上的模型稳健性。（来源：论文）

这个结果是合理的，因为蛋白质语言模型所模拟的肽序列的「适应性」并不一定意味着与所有其他生物分子具有强结合力。例如，SARS-CoV-2 刺突蛋白适应度的提高可能涉及对现有中和抗体的结合亲和力降低。

另一个论点是，结构信息在构建准确可靠的蛋白质-蛋白质相互作用算法中起着关键作用。

展望未来，GearBind 的潜在应用不仅限于蛋白质-蛋白质结合优化。该模型可轻松适应解决蛋白质-肽和蛋白质-配体对接挑战，从而为其在微型结合剂和酶设计中的应用开辟了可能性。

局限性与未来方向

尽管 GearBind 方法前景乐观，但仍有局限性。

首先，准确的复合物结构是基于 ΔΔGbind 预测的前提，而这在抗体-抗原对中并不容易。可以通过同源建模或直接从序列预测复合物结构来应对。

其次，依赖外部工具生成突变结构增加了时间成本，未来可发展端到端模型，并考虑氨基酸的插入和缺失。改进预训练策略和模型设计也将提高模型的泛化能力。

总而言之，研究人员相信该工作朝着建立可靠、强大和高效的计算机亲和力成熟流程迈出了坚实的一步，这将为研究和药物发现应用带来巨大的机会。

论文链接：https://www.nature.com/articles/s41467-024-51563-8

理论AIAI for Science抗体蛋白质

相关技术

知识图谱

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

药物发现技术

在医学，生物技术和药理学领域，药物发现是发现新候选药物的过程。

来源：wiki