Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型

图片编辑 | 萝卜皮

来自深度语言模型的蛋白质表征,已经在计算蛋白质工程的许多任务中表现出最先进的性能。近年来,进展主要集中在参数计数上,最近模型的容量超过了它们所训练的数据集的大小。

牛津大学(University of Oxford)的研究人员提出一个替代方向。他们证明,在密码子而不是氨基酸序列上训练的大型语言模型可以提供高质量的表征,并且在各种任务中都优于同类最先进的模型。

在某些任务中,例如物种识别、蛋白质和转录本丰度预测等,该团队发现,基于密码子训练的语言模型优于所有其他已发布的蛋白质语言模型,包括一些包含超过 50 倍训练参数的模型。

该研究以「Codon language embeddings provide strong signals for use in protein engineering」为题于 2024 年 2 月 23 日发布在《Nature Machine Intelligence》。

图片

蛋白质表征学习仍存在不少挑战

预训练语言模型已成为计算蛋白质工程许多领域不可或缺的工具。大多数标记蛋白质数据集的大小有限,因此首先在大型、未标记的序列信息语料库(例如 UniRef)上对庞大的深度神经网络进行预训练,并具有自监督的重建目标。自监督训练赋予模型的潜在变量具有高度信息性的特征,称为表征学习,然后可以在可用训练数据有限的下游任务中利用这些特征。

蛋白质表征学习目前是用于预测变异适应性、蛋白质功能、亚细胞定位、溶解度、结合位点、信号肽、翻译后修饰、内在紊乱等的最先进工具的核心,它们在实现准确的免比对蛋白质结构预测的道路上显示出了巨大潜力。因此,改进学习表征是在计算蛋白质工程中实现一致、实质性改进的潜在途径。

迄今为止,实现更多信息表征的途径遵循两个主要方向:追求增强规模的模型,其中增加模型容量单调地提高性能;模型架构的改进也持续带来了性能提升。但是,这两个方向都耗费人力和计算机时间,需要显著优化,并且似乎提供递减(对数)回报。

更丰富的数据是另一条途径

改进学习表征的另一种途径可能是使用包含更丰富信号的生物数据。虽然蛋白质语言模型迄今为止主要关注氨基酸序列,但编码蛋白质的 DNA 序列中还包含其他信息。

蛋白质编码 DNA (cDNA) 的语言依赖于 64 个核苷酸三联体,称为密码子,每个密码子编码一个特定的氨基酸或序列的末端。

虽然这种 64 密码子字母表是高度简并的,大多数氨基酸由多达 6 个不同的密码子编码,但目前的研究表明,编码相同氨基酸(同义)的密码子不能互换使用。同义密码子的使用与蛋白质结构特征相关,近 60 个同义突变与人类疾病有关。

图片

图示:将蛋白质语言模型扩展到密码子语言。(来源:论文)

密码子的使用也与蛋白质折叠有关,有充分的证据表明密码子序列的变化会影响折叠动力学、折叠途径,甚至正确折叠的蛋白质的量。这一证据表明,同义密码子的使用包含有价值的生物信息,机器学习模型可以利用这些信息来提高预测任务中的信噪比。

用密码子序列,而不是氨基酸序列

在最新的研究中,牛津大学的研究团队证明在密码子序列上预训练蛋白质语言模型  CaLM(codon adaptation language model,由 8600 万参数进行训练),可以产生能够捕获关键生化特征的信息丰富的蛋白质表征。测试表明,根据密码子而不是氨基酸序列训练的蛋白质表征,在各种下游任务中表现出显著的优势。


图片

图示:CaLM 概述。(来源:论文)

该团队的 8600 万参数语言模型的性能,优于其他具有类似容量的模型,在许多情况下,甚至优于参数超过 50 倍的模型。这种性能是由于密码子语言模型能够捕获跨 DNA 序列的密码子使用模式的能力,并且当密码子使用信息被损坏时,这种优势就会消失。

cDNA 训练模型的额外训练成本可以忽略不计,并且似乎可以提高所考虑的所有序列级任务的性能。由于高通量蛋白质测序几乎完全是通过 DNA 序列的翻译来完成的,因此原始编码序列是公开可用的并且可以用于训练。研究人员建议使用 cDNA 而不是简单的氨基酸序列来训练蛋白质语言模型,这为改进计算蛋白质工程提供了一条明确的途径。

密码子语言模型还可以为无需比对的蛋白质结构预测,提供有价值的进化信号,特别是在依赖语言模型来预测蛋白质各部分之间关系的 ESMfold 和 OmegaFold 等方法中。

基于 cDNA 的模型可以恢复更广泛的进化关系,例如同义突变,这在核苷酸水平上很明显,但在氨基酸水平上并不明显。已知同义密码子的使用与结构特征相关,并且密码子使用和蛋白质折叠之间的联系可能为已知无法捕获折叠物理原理的方法提供有价值的信号。

研究人员建议,将密码子语言模型纳入免比对蛋白质结构预测的流程中,很可能为加速高精度蛋白质结构预测提供一条成本可以忽略不计的途径。

提高蛋白质表达质量的两个方向

该团队还提出了进一步提高蛋白质表达质量的两个主要方向。

一是规模扩大。当前的研究使用了一个只有 8600 万个参数的简单模型,这个大小与最新出版物中的标准模型大小相比显得相形见绌。

使用的数据集也相对较小:与 ESM 系列模型中使用的 1.25 亿个序列或某些 ProtTrans 模型中使用的近 5 亿个序列相比,仅 900 万个序列。通过在包含数亿 DNA 序列的数据集上训练数十亿参数模型,存在一条明确的途径来提高表征质量。

另一个潜在的改进方向是开发结合氨基酸和编码序列的多模式模型。该研究的消融实验表明,在缺乏密码子使用信息的情况下,模型性能大幅下降,以至于低于数据集中的每个氨基酸模型。然而,由于模型间接访问氨基酸序列,因此原则上它应该能够访问与仅氨基酸模型相同的信息。

这种差异可能是由于训练期间缺乏氨基酸水平信号造成的,因此结合氨基酸和密码子序列的训练模型可以提高整体模型性能。

更丰富的输入带来新视角

在生物学中,人们非常关注数据集偏差的影响,但相比之下,人们很少甚至没有关注蛋白质工程中更丰富的输入的重要性。随着计算能力和模型架构的进步,利用更丰富的生物数据为提高生物学中机器学习的能力提供了明确的方向。

基于 cDNA 训练的大型语言模型的开发,将使研究「不直接由氨基酸序列确定的蛋白质特性」成为可能。例如,密码子的使用与蛋白质折叠的相关性,实验证据表明密码子序列的变化确实会影响折叠动力学、折叠途径,甚至正确折叠蛋白质的数量。

仔细选择密码子序列是蛋白质科学的一个关键目标,其中表达的 cDNA 的特定序列会对产量产生巨大影响。该团队提出的基于密码子的语言模型,代表了使用机器学习方法来研究蛋白质的这些特性和其他特性的第一步,而这些特性迄今为止还没有被氨基酸语言模型解决。

相关报道:https://www.nature.com/articles/s42256-024-00791-0

产业蛋白质机器学习语言模型
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~