编辑 | KX
蛋白质工程是合成生物学领域的重要研究方向之一。近年来,AI 辅助的蛋白质工程逐渐发展成为一种高效的蛋白质分子设计新策略。
近日,微软研究院科学智能中心的研究人员提出了深度学习框架 µFormer,其将预训练的蛋白质语言模型与定制设计的评分模块相结合,从而预测蛋白质的突变效应。
µFormer 在预测高阶突变体、建模上位(epistatic)相互作用和处理插入方面,实现了最先进的性能。
通过将 µFormer 与强化学习框架相结合,可以高效探索广阔的突变空间,涵盖数万亿个突变候选物,来设计活性增强的蛋白质变体。该模型成功预测了由于酶活性增强而表现出 2000 倍细菌生长率增加的突变体。
相关研究以「Accelerating protein engineering with fitness landscape modeling and reinforcement learning」为题,发表在预印平台 bioRxiv 上。
蛋白质工程旨在设计具有所需功能和特性的蛋白质。通过优化蛋白质序列实现的高效蛋白质工程可以极大地促进生物药物、酶等的设计。实现这一目标的一种有前途的方法是将蛋白质序列准确地映射到其相应的功能上,从而能够高效地搜索具有所需功能的序列。
零样本方法无需依赖同源物或多序列比对 (MSA) 即可预测突变效应,减少了一些依赖性,但在预测蛋白质的多样性特性方面却存在不足。
基于深度突变扫描 (DMS) 或 MAVE 数据训练的基于学习的模型,已被用于单独或与 MSA、语言模型一起预测适应度景观。尽管如此,当实验数据稀疏时,这些数据驱动的模型往往难以做出合理的预测。
用于蛋白突变效应预测的深度学习框架 µFormer
为了解决以上问题,微软研究院的研究人员提出了一个深度学习框架 µFormer,该框架具有三个基于学习的评分模块,旨在捕捉不同序列特征水平的蛋白质突变效应:单残基有效性、基序级模式和序列级语义。结合预训练的蛋白质语言模型,µFormer 能够更准确、更全面地模拟蛋白质适应度景观,减少对观测数据的依赖。
µFormer 是一种用于突变效应预测的两步解决方案,即预测突变蛋白质序列的适应度得分。µFormer 由一个自监督蛋白质语言模型和一组监督评分模块组成。
首先,通过在大量未标记蛋白质序列数据集上预训练掩蔽蛋白质语言模型 (PLM)。在预训练阶段,蛋白质语言模型使用从 UniRef50 收集的超过 3000 万个蛋白质序列进行训练。通过采用掩蔽语言建模策略,蛋白质语言模型学会在给定蛋白质序列中其余残基的情况下预测目标位置上最可能的氨基酸。
其次,通过使用集成到预训练模型中的三个评分模块预测适应度得分。这些模块(残差级、基序级和序列级)捕获蛋白质序列的不同方面,并结合它们的输出以生成最终的适应度得分。该模型使用已知的适应度数据进行训练,最大限度地减少预测分数和实际分数之间的误差。
此外,µFormer 与强化学习 (RL) 策略相结合,可有效探索可能突变的广阔空间。该框架中的蛋白质工程问题被建模为马尔可夫决策过程 (MDP),并使用近端策略优化 (PPO) 来优化突变策略。在突变搜索过程中添加狄利克雷(Dirichlet)噪声,保证有效搜索,避免局部最优。
在不同任务上的表现优于同类方法
研究证明,µFormer 可以处理各种具有挑战性的场景,包括有限数量的测量、同源物很少的孤蛋白、具有多点突变的复杂变体、插入和删除,以及表现出训练数据中不存在的过度激活的突变体。大量实验表明,µFormer 在不同任务上的表现优于同类方法。
为了评估 µFormer 在适应度景观建模和突变效应预测方面的能力,研究人员将其与十种替代方法进行了对比,包括基于 MSA 的方法、基于语言模型的零样本方法和基于学习的方法。
首先在 ProteinGym 上评估了所有模型。在所有模型中,µFormer 在不同数据集中预测突变效应的能力最强。平均 Spearman 相关性为 0.703,在 78 个测试数据集中的 48 个上取得了最佳性能。
进一步的分析表明,µFormer 对训练数据大小和同源序列号的变化不敏感,表明 µFormer 是蛋白质突变效应预测的通用工具。
接下来,评估了 µFormer 在插入和删除 (indel) 预测方面的表现。研究人员对 µFormer 在 indel 任务上的表现与四种替代方法进行了基准测试。µFormer 在两个具有 indel 突变的基准数据集上始终优于其他方法。
更重要的是,观察到在使用单个突变体进行训练时,µFormer 在高阶突变效应预测方面表现出色,将 µFormer 部署为「导航」蛋白质设计的通用工具,并结合强化学习,可以在广阔的适应度景观中进行有效的序列搜索。
通过使用此流程对涵盖数万亿个突变候选物的突变空间进行了有效而全面的探索,研究人员设计了一种 β-内酰胺酶来水解新的底物分子,并确定了许多具有多达 3 个点突变的变体,这些变体可能对新底物的活性表现出显著增强。
具体来说,通过仅基于单点突变数据训练模型并探索多点高适应度突变,研究人员在湿实验室实验中测试的 200 个样本中发现了 47 个活性高于野生型的突变。其中包括酶活性比之前发现的最高突变(1000 倍)高 2000 倍的 β-内酰胺酶变体,可作为抵抗耐药性的预防措施。
µFormer 利用预训练的大型蛋白质序列模型,在多个不同的预测任务中取得了出色的表现。可以预见,深度学习模型将进一步加速蛋白质适应度的研究,并为生物药物设计、蛋白质疫苗优化和蛋白质工程等各个领域做出贡献。
参考内容:https://www.marktechpost.com/2024/09/10/%C2%B5former-a-deep-learning-framework-for-efficient-protein-fitness-prediction-and-optimization/