提高抗体与其靶抗原的结合亲和力是抗体疗法开发中的关键任务。
复旦大学与百奥几何(BioGeometry)团队联合推出了一种可预训练的几何图神经网络 GearBind,展示了其在抗体亲和力成熟中的潜力。
通过多关系图构建、几何消息传递和大规模未标记蛋白质数据的预训练,GearBind 在多个测试集上的表现优于现有方法。
研究人员基于 GearBind 推导出一个强大的集成模型,成功用于增强两种不同抗体的结合能力,实验数据显示设计的抗体突变体显著提升了性能。
该研究以「Pretrainable geometric graph neural network for antibody affinity maturation」为题,于 2024 年 9 月 6 日发布在《Nature Communications》。
抗体在免疫系统中具有关键作用,并因其高亲和力的特异性结合能力,被广泛用于诊断和治疗。
但是,体外抗体亲和力成熟过程耗时且成本高,需要构建突变库和利用展示技术筛选,整个过程通常需要 2-3 个月或更长时间才能完成。同时,由于抗体互补决定区内的突变组合数量巨大,纯生物实验方法难以覆盖所有可能性。
虽然分子动力学方法较为准确,但速度较慢,难以筛选大量突变。近年来,深度学习方法被引入解决亲和力预测问题,但由于数据集规模有限,模型的准确性和可靠性仍面临挑战。
多级几何信息传递模拟蛋白质相互作用
为了应对这些挑战,复旦大学、百奥几何的研究人员引入了 GearBind,这是一种可预训练的深度神经网络,利用多级几何信息传递来模拟细微的蛋白质-蛋白质相互作用。
该团队在大规模蛋白质结构数据集上使用对比预训练技术,将重要的结构见解纳入模型。研究人员进行了大量计算机实验来评估模型的性能。GearBind 的技术优势可以概括如下:
(1)在图构建阶段,在界面上的所有重原子上构建多关系图。定义的关系涵盖了顺序邻近和空间邻近。将全原子图替换为仅主干原子图,或将多关系图替换为简单的 kNN 图都会导致严重的性能下降。
(2)在特征提取阶段,采用多级消息传递方案来全面了解蛋白质界面上复杂的相互作用。
(3)提出了一种基于对比学习的预训练算法,利用 CATH 中丰富的未标记单链蛋白质结构,将侧链扭转角知识提取到模型中,进一步提升模型性能。
GearBind 的强大性能
研究人员用两个现实世界的抗体亲和力成熟项目检验了他们基于 GearBind 的管线。
结果显示,仅合成和测试 20 种候选抗体后,抗体 CR3022 与 Omicron SARS-CoV-2 变体刺突 (S) 蛋白的结合率就通过酶联免疫吸附试验 (ELISA) 测量增加了 17 倍,通过生物层干涉法 (BLI) 测量增加了 6.1 倍。
图示:对 SKEMPI 和 HER2 结合剂测试集进行计算机模拟评估。(来源:论文)
所有设计的抗体均保持或增加了与 SARS-CoV-2 Delta 变体和 SARS-CoV 的受体结合域 (RBD) 的结合。
在测试了 12 种候选抗体后,通过 ELISA 测量,全人单域抗体(UdAb)与癌胚抗原 5T4 的结合增加了高达 5.6 倍,通过 BLI 测量,增加了高达 2.1 倍。
图示:优化的 CR3022 和抗 5T4 UdAb 的结构分析。(来源:论文)
简而言之,GearBind 被证明是一种高效且强大的工具,可用于设计具有增强结合亲和力的抗体。根据 GearBind 流程识别出的最佳突变体的分子动力学模拟,研究人员观察到他们的设计通过创建新的相互作用或加强现有的接触(尤其是氢键)来增强结合亲和力。这让研究人员得以了解 GearBind 如何从数据中学习并设计出增加结合亲和力的突变体。
评估其他方法带来新论点
虽然这项研究主要关注基于结构的方法,但是对于其他团队已经探索了的纯基于序列的亲和力成熟模型,研究人员也进行了评估。他们对 SKEMPI 上的 ESM-1b 和 ESM-1v 模型的评估得出了负的 SpearmanR 值,这暗示大规模蛋白质语言模型的零样本预测不是对蛋白质复合物的结合亲和力进行排序的普遍可靠方法。
图示:通过 per-PDB 评估 SKEMPI 数据集上的模型稳健性。(来源:论文)
这个结果是合理的,因为蛋白质语言模型所模拟的肽序列的「适应性」并不一定意味着与所有其他生物分子具有强结合力。例如,SARS-CoV-2 刺突蛋白适应度的提高可能涉及对现有中和抗体的结合亲和力降低。
另一个论点是,结构信息在构建准确可靠的蛋白质-蛋白质相互作用算法中起着关键作用。
展望未来,GearBind 的潜在应用不仅限于蛋白质-蛋白质结合优化。该模型可轻松适应解决蛋白质-肽和蛋白质-配体对接挑战,从而为其在微型结合剂和酶设计中的应用开辟了可能性。
局限性与未来方向
尽管 GearBind 方法前景乐观,但仍有局限性。
首先,准确的复合物结构是基于 ΔΔGbind 预测的前提,而这在抗体-抗原对中并不容易。可以通过同源建模或直接从序列预测复合物结构来应对。
其次,依赖外部工具生成突变结构增加了时间成本,未来可发展端到端模型,并考虑氨基酸的插入和缺失。改进预训练策略和模型设计也将提高模型的泛化能力。
总而言之,研究人员相信该工作朝着建立可靠、强大和高效的计算机亲和力成熟流程迈出了坚实的一步,这将为研究和药物发现应用带来巨大的机会。
论文链接:https://www.nature.com/articles/s41467-024-51563-8