Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

仅输入prompt与序列,准确率超90%,UC伯克利等提出文本生成蛋白质多模态框架

图片

编辑丨coisini

机器学习在蛋白质发现领域展现出深远的潜力,相关工具已快速应用于科学流程的辅助与加速。当前,AI 辅助的蛋白质设计主要利用蛋白质的序列和结构信息,而为了描述蛋白质的高级功能,人们以文本形式整理了海量知识,这种文本数据能否助力蛋白质设计任务尚未得到探索。

为了填补这一空白,来自加州大学伯克利分校(UC Berkeley)、加州理工学院(California Institute of Technology)等机构的研究者提出了一个利用文本描述进行蛋白质设计的多模态框架 ——ProteinDT。该框架包含三个连续步骤:对齐两种模态表征的 ProteinCLAP、从文本模态生成蛋白质表征的 Facilitator,以及根据表征生成蛋白质序列的解码器。

图片

论文地址:https://www.nature.com/articles/s42256-025-01011-z

研究概览

受基础模型突破的启发,计算化学领域已证明结合药物文本描述与化学结构信息的多模态机制能有效促进小分子药物发现,这为蛋白质领域如何运用多模态机制推动蛋白质工程与生成提出了新命题。

为解答这一问题,研究团队开创了利用文本描述进行蛋白质设计的新范式。

具体而言,该研究致力于挖掘蛋白质的两种模态:蛋白质序列与文本描述。蛋白质序列由 20 种氨基酸(又称残基)组成,决定了蛋白质的折叠方式与功能特性;而第二模态则是公开数据源(如 UniProt)记录的文本描述,蕴含丰富的蛋白质知识,包括参与的生物过程、执行的分子功能以及定位的细胞组分。两种模态分别聚焦于表达内部生化组成与领域专家总结的高阶知识,因此探索两者的融合对完成更具挑战性的蛋白质设计任务(如零样本泛化)具有重要意义。

该研究提出了文本驱动的蛋白质设计框架 ProteinDT,其核心流程如下:

(1) 对比性语言 - 蛋白质预训练(ProteinCLAP)步骤,旨在对齐文本序列与蛋白质序列的表征空间。该步骤通过从 UniProt 的 Swiss-Prot 子集提取的 441,000 个文本 - 蛋白质对数据集 SwissProtCLAP,采用对比学习范式实现双模态表征对齐;

(2) ProteinFacilitator 模型从文本模态生成蛋白质序列表征,采用高斯分布估计条件分布;

(3) 用于蛋白质生成的解码器模型是一个条件生成模型,基于上一步产生的表征信息生成蛋白质序列。

图片

实验结果

为了验证 ProteinDT 的多功能特性,研究团队设计了三项下游任务:

文本生成蛋白质任务,通过 ProteinDT 流程根据目标蛋白质特性的文本描述 prompt 生成蛋白质序列,最优检索准确率可超 90%。

图片
图片

零样本文本引导的蛋白质编辑任务,输入为文本 prompt 和蛋白质序列。研究团队提出两种编辑方法:潜在空间插值法在序列级表征空间进行插值;潜在优化法直接优化 token 级表征。两种方法均注入文本模态信息,并将学得的表征用于蛋白质生成。实验显示 ProteinDT 在 12 项编辑任务(涵盖结构感知、稳定性优化及肽段结合编辑等)中均取得最佳命中率,定性分析结果进一步证明了其有效性。

图片
图片

蛋白质属性预测任务,用于评估 ProteinCLAP 学习表征的稳健性与泛化能力。与六种前沿蛋白质序列表征方法相比,ProteinDT 在四项基准测试中表现最优。

图片

感兴趣的读者可以阅读论文原文,了解更多研究内容。

理论生物学蛋白质AI for Science
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~