2024/07/11 11:53

精度媲美AlphaFold，EPFL的AI方法从序列中匹配蛋白质互作

编辑 | 枯叶蝶

蛋白质是生命的基石，参与几乎所有的生物过程。了解蛋白质如何相互作用对于解释细胞功能的复杂性至关重要，对药物开发和疾病治疗也具有重要意义。

洛桑联邦理工学院（École Polytechnique Fédérale de Lausanne，EPFL）的 Anne-Florence Bitbol 团队提出了一种配对相互作用的蛋白质序列的方法，该方法利用了在多个序列比对上训练的蛋白质语言模型的强大功能；它对于小型数据集表现良好，它可以通过监督方法改进蛋白质复合物的结构预测。

该研究以「Pairing interacting protein sequences using masked language modeling」为题，于 2024 年 6 月 24 日发布在《PNAS》。

蛋白质间的相互作用对细胞功能至关重要，它们确保了信号传导的特异性和多蛋白复合体（如分子马达或受体）的形成。预测蛋白质-蛋白质相互作用及其复合体结构是计算生物学和生物物理学中的重要课题。

尽管 AlphaFold 等深度学习方法在蛋白质单体结构预测上取得重大进展，但对于复合体结构的预测性能仍不如同单体预测，且存在异质性。AlphaFold 首先构建查询蛋白序列的同源多序列比对（MSA），而 MSA 的质量对预测准确性极为关键。

对于涉及多种链的蛋白质复合体（异源多聚体），配对 MSA 能提供交互伙伴间的协同进化信息，有助于推断链间接触，但构建正确配对的 MSA 是一大挑战；尤其是在真核生物中，因存在众多同源蛋白且非依赖于基因组邻近性。

目前，结合基因组邻近性、近似同源性、基于系统发生的方法及协同进化策略等手段来应对这一挑战，其中协同进化方法虽数据需求大，但在优化配对和预测复合体结构方面展现出潜力，特别是通过最大化协同进化信号来匹配同源蛋白。

EPFL 的 Anne-Florence Bitbol 团队开发了一种配对相互作用蛋白质序列的方法，该方法利用了在多序列比对 (MSA) 上训练的蛋白质语言模型的强大功能，例如 MSA Transformer 和 AlphaFold 的 EvoFormer 模块。这使它能够高度准确地理解和预测蛋白质之间的复杂相互作用。

基于这些，研究人员提出了使用基于对齐的语言模型（DiffPALM）的可微分配对，这是一种使用 MLM 预测同源词匹配的可微分方法。

图示：DiffPALM 在小型 HK-RR MSA 上的性能。（来源：论文）

在从普遍存在的原核生物蛋白质数据集中提取的浅层 MSA 的困难基准测试中，它的表现远胜于现有的协同进化方法。当提供已知的相互作用对作为示例时，DiffPALM 性能会进一步快速提高。

基于协同进化的配对方法，主要研究蛋白质序列在紧密相互作用时如何随着时间的推移一起进化——一种蛋白质的变化可能导致其相互作用分子的变化。这是分子和细胞生物学中一个极其重要的课题，在 MSA 上训练的蛋白质语言模型可以很好地捕捉到这一点。

图示：使用不同配对方法的 AFM 性能。（来源：论文）

之后，该团队将 DiffPALM 应用于真核蛋白质复合物的同源物匹配难题。为此，研究人员将 DiffPALM 配对的序列作为 AFM 的输入。在测试的复合物中，使用 DiffPALM 在某些情况下可以显著改善 AFM 的结构预测。它还实现了与使用基于直系同源物的配对相媲美的性能。

图示：正例的影响、MSA 深度以及对另一对蛋白质家族的扩展。（来源：论文）

DiffPALM 的应用在基础蛋白质生物学领域显而易见，但它的应用范围不止于此，因为它有可能成为医学研究和药物开发的有力工具。例如，准确预测蛋白质相互作用有助于了解疾病机制和开发有针对性的治疗方法。

研究人员已免费提供 DiffPALM，希望科学界广泛采用它以进一步推动计算生物学的发展，并使研究人员能够探索蛋白质相互作用的复杂性。

DiffPALM 结合先进的机器学习技术和对复杂生物数据的有效处理，标志着计算生物学向前迈出了重大一步。

它不仅增强了科学家对蛋白质相互作用的理解，而且开辟了医学研究的新途径，有可能带来疾病治疗和药物开发的突破。

论文链接：https://www.pnas.org/doi/10.1073/pnas.2311887121

相关报道：https://phys.org/news/2024-06-ai-based-approach-protein-interaction.html

理论生物计算蛋白质人工智能

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统，是DeepMind在2017-2018年中一直在研究的项目，它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多，在生物学的核心挑战之一上取得了重大进展。

来源：机器之心 DeepMind博客

进化策略技术

进化策略(Evolutionary Strategies,ES)是由德国的I. Rechenberg和HP. Schwefel于1963年提出的。ES作为一种求解参数优化问题的方法，模仿生物进化原理，假设不论基因发生何种变化，产生的结果（性状）总遵循零均值、某一方差的高斯分布。

来源：百度百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科