2025/02/07 18:25

LLM时代，计算蛋白质科学进展如何？香港理工大学等发布系统性综述

编辑丨coisini

作为生命的基本构建单元，蛋白质在几乎所有基本生命活动中扮演着不可或缺的角色，例如新陈代谢、信号传导、免疫反应等。如下图所示，蛋白质遵循序列 - 结构 - 功能范式。

图注：蛋白质遵循序列-结构-功能范式。（图源：论文）

随着科学探索的不断推进，破译蛋白质语言并应用蛋白质序列 - 结构 - 功能之间的信息流动规则面临更大的挑战。研究人员积极引入强大的 LLM 技术来推动计算蛋白质科学的发展，开发了蛋白质语言模型（pLMs），这些模型巧妙地掌握了蛋白质的基础知识，并能够有效地泛化以解决各种序列 - 结构 - 功能推理问题。

近期，为了帮助具有 AI 或生物学背景的研究人员快速了解相关进展并获得启发，来自香港理工大学等机构的研究团队对 LLM 技术支持下的计算蛋白质科学进行了系统性的综述。

论文地址：https://arxiv.org/pdf/2501.10282

这篇综述首先概述了蛋白质建模中的生物学基础和数据概况，其次回顾了三类蛋白质语言模型（pLMs），这些模型能够理解氨基酸序列、识别结构和功能信息，并连接多种生物医学语言，接着该综述介绍了 pLMs 的利用和适应性，重点强调了 pLMs 在结构预测、功能预测和蛋白质设计中的重大影响。然后，该综述详细说明了 pLMs 在抗体设计、酶设计和药物靶点发现中的应用潜力，最后分享了这一快速发展领域的未来方向。

图注：生物学基础与数据概况。（来源：论文）

下面是综述主要内容概览。

预训练蛋白质语言模型

该综述将现有蛋白质语言模型（pLMs）分类为基于序列的模型、结构与功能增强的模型以及多模态模型。

基于序列的 pLMs

通用 LLM 能够捕捉子词 token 之间的相互依赖关系，并深入理解文本的语法和语义。类似地，基于序列的 pLMs 能够捕捉氨基酸（AA）token 之间的相互依赖关系，提取有利的序列模式，并掌握隐含的结构和功能信息。基于序列的 pLMs 可以进一步分为基于单序列的模型和基于多序列的模型。前者通过相应的氨基酸序列描述每个蛋白质，后者则采用检索增强的思想，通过进化或合成中的多个相关序列来描述每个蛋白质。下表提供了基于序列的 pLMs 的全面总结，概述了每个 pLM 的输入数据、网络架构和预训练目标。

表注：基于序列的 pLMs。（来源：论文）

结构与功能增强的 pLMs

基于序列的蛋白质语言模型通过大规模预训练展示了从蛋白质序列中捕捉隐含结构和功能语义的能力，而进一步整合显式知识可以在更全面的层次上增强其对蛋白质的理解。该综述介绍了构建结构与功能增强的 pLMs 的最新进展，分别解释了蛋白质结构和功能的数据形式，并介绍了相应的整合方法。

表注：结构与功能增强的 pLMs。（来源：论文）

多模态 pLMs

上述蛋白质语言模型能够解析蛋白质序列并理解其结构和功能信息，其中一些模型整合了与蛋白质相关的文本描述，但它们的主要关注点仍然是围绕蛋白质的语义。该综述接下来介绍了在外在语言中表现出色的 pLMs，这些外在语言包括包含世界知识的自然语言、化学分子语言等。由于这些语言传达了极为多样化的语义，该综述将它们视为不同的模态。下表对多模态 pLMs 进行了总结。

表注：多模态 pLMs。（来源：论文）

蛋白质语言模型的利用和适应

该综述通过考虑蛋白质结构预测、蛋白质功能预测和蛋白质设计中的待解决问题，总结了 pLMs 的利用和适应方法。

蛋白质结构预测

迄今为止，蛋白质数据库（Protein Data Bank）中仅收集了约二十万个通过实验确定的结构。以这种发展速度，要分析数亿个已测序但结构未知的天然蛋白质，将需要数百万个研究年。如果计算模型能够从氨基酸序列中准确推断出蛋白质的原子级三维结构，人类对蛋白质结构的理解进程将大大加快。

近年来，人工智能和计算能力的快速发展极大地推动了蛋白质结构预测的进步。诸如 AlphaFold2 和 RoseTTAFold 等突破性方法在预测蛋白质结构方面展现了接近实验精度的前所未有的水平。它们已成为科学家在数十分钟内获得可靠蛋白质结构的重要工具。

图注：AlphaFold2 和 ESMFold 的工作流程概述。（来源：论文）

蛋白质功能预测

与明确界定的蛋白质序列和结构不同，蛋白质功能展现出多方面的特性，因为不同的蛋白质在广泛的生物系统中扮演着多样的生物学角色。

在 pLMs 出现之前，人工智能模型是针对各种蛋白质功能预测任务从头开始单独训练的。这种传统范式有一个严重的缺点：由于模型缺乏可迁移的蛋白质知识，预测性能往往不尽如人意，尤其是在数据稀缺的情况下。为了克服这一问题，pLMs 已成功应用于蛋白质功能预测。

图注：基于pLMs的蛋白质功能预测的典型技术方案。（来源：论文）

蛋白质设计

为了创造出具有所需功能的新蛋白质，领域研究需要高效地探索广阔的蛋白质空间，以找到数量可控、合理、功能显著且多样化的蛋白质序列。根据是从现有蛋白质开始还是从头开始，蛋白质设计可以分为两大类：重新设计和从头设计。

蛋白质重新设计从现有蛋白质出发，探索蛋白质空间，旨在增强现有的功能特性。

图注：蛋白质重新设计。（来源：论文）

与改造现有蛋白质不同，从头设计蛋白质旨在在没有参考序列的情况下提出全新功能性蛋白质。这是一项极具挑战性的任务，因为它要求模型在广阔的蛋白质空间中准确把握哪些序列和结构能够实现所需的功能。与此同时，从头设计蛋白质具有显著优势，例如揭示自然界中从未见过的功能，并提供对设计过程的完全控制。

通常，从头设计蛋白质通过逆转「序列 - 结构 - 功能」范式来实现：首先指定所需功能，然后设计能够执行该功能的结构，最后找到能够折叠成该结构的序列。

综述第五章介绍了 pLMs 的一些生物医学应用，包括抗体设计、酶设计和药物发现；第六章从数据稀缺、蛋白质相互作用建模、可解释性、计算与实验研究的结合、计算效率几个方面讨论了当前挑战和未来潜在研究方向。

感兴趣的读者可以阅读综述原文，了解更多研究内容。

理论AI for Science语言模型蛋白质