
编辑丨coisini
机器学习在蛋白质发现领域展现出深远的潜力,相关工具已快速应用于科学流程的辅助与加速。当前,AI 辅助的蛋白质设计主要利用蛋白质的序列和结构信息,而为了描述蛋白质的高级功能,人们以文本形式整理了海量知识,这种文本数据能否助力蛋白质设计任务尚未得到探索。
为了填补这一空白,来自加州大学伯克利分校(UC Berkeley)、加州理工学院(California Institute of Technology)等机构的研究者提出了一个利用文本描述进行蛋白质设计的多模态框架 ——ProteinDT。该框架包含三个连续步骤:对齐两种模态表征的 ProteinCLAP、从文本模态生成蛋白质表征的 Facilitator,以及根据表征生成蛋白质序列的解码器。

论文地址:https://www.nature.com/articles/s42256-025-01011-z
研究概览
受基础模型突破的启发,计算化学领域已证明结合药物文本描述与化学结构信息的多模态机制能有效促进小分子药物发现,这为蛋白质领域如何运用多模态机制推动蛋白质工程与生成提出了新命题。
为解答这一问题,研究团队开创了利用文本描述进行蛋白质设计的新范式。
具体而言,该研究致力于挖掘蛋白质的两种模态:蛋白质序列与文本描述。蛋白质序列由 20 种氨基酸(又称残基)组成,决定了蛋白质的折叠方式与功能特性;而第二模态则是公开数据源(如 UniProt)记录的文本描述,蕴含丰富的蛋白质知识,包括参与的生物过程、执行的分子功能以及定位的细胞组分。两种模态分别聚焦于表达内部生化组成与领域专家总结的高阶知识,因此探索两者的融合对完成更具挑战性的蛋白质设计任务(如零样本泛化)具有重要意义。
该研究提出了文本驱动的蛋白质设计框架 ProteinDT,其核心流程如下:
(1) 对比性语言 - 蛋白质预训练(ProteinCLAP)步骤,旨在对齐文本序列与蛋白质序列的表征空间。该步骤通过从 UniProt 的 Swiss-Prot 子集提取的 441,000 个文本 - 蛋白质对数据集 SwissProtCLAP,采用对比学习范式实现双模态表征对齐;
(2) ProteinFacilitator 模型从文本模态生成蛋白质序列表征,采用高斯分布估计条件分布;
(3) 用于蛋白质生成的解码器模型是一个条件生成模型,基于上一步产生的表征信息生成蛋白质序列。

实验结果
为了验证 ProteinDT 的多功能特性,研究团队设计了三项下游任务:
文本生成蛋白质任务,通过 ProteinDT 流程根据目标蛋白质特性的文本描述 prompt 生成蛋白质序列,最优检索准确率可超 90%。


零样本文本引导的蛋白质编辑任务,输入为文本 prompt 和蛋白质序列。研究团队提出两种编辑方法:潜在空间插值法在序列级表征空间进行插值;潜在优化法直接优化 token 级表征。两种方法均注入文本模态信息,并将学得的表征用于蛋白质生成。实验显示 ProteinDT 在 12 项编辑任务(涵盖结构感知、稳定性优化及肽段结合编辑等)中均取得最佳命中率,定性分析结果进一步证明了其有效性。


蛋白质属性预测任务,用于评估 ProteinCLAP 学习表征的稳健性与泛化能力。与六种前沿蛋白质序列表征方法相比,ProteinDT 在四项基准测试中表现最优。

感兴趣的读者可以阅读论文原文,了解更多研究内容。