Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

量化617,462种人类微蛋白必需性,北大LLM蛋白质综合预测与分析,登Nature子刊

图片

编辑 | 萝卜皮

人类必需蛋白(HEP)对于个体的生存和发育必不可少。然而,鉴定 HEP 的实验方法通常成本高昂、耗时费力。

此外,现有的计算方法仅在细胞系水平上预测 HEP,但 HEP 在活体人类、细胞系和动物模型中有所不同。

在这里,北京大学的研究团队通过微调预训练的蛋白质语言模型,开发了一个基于序列的深度学习模型,即蛋白质重要性计算器 (PIC,Protein Importance Calculator)。

PIC 不仅大大优于现有的预测 HEP 方法,而且还提供了跨人类、细胞系和小鼠三个层面的全面预测结果。

此外,团队定义了源自 PIC 的蛋白质必需评分,以量化人类蛋白质的必需性,并通过一系列生物学分析验证其有效性。他们还通过识别乳腺癌的潜在预后生物标志物和量化 617,462 种人类微蛋白的必需性,来证明蛋白质必需评分的生物医学价值。

该研究以「Comprehensive prediction and analysis of human protein essentiality based on a pretrained large language model」为题,于 2024 年 11 月 27 日发布在《Nature Computational Science》。

图片

必需蛋白由必需基因编码,对生物体的生存至关重要,通常参与基本的生物过程。因此,从人类蛋白质组中识别必需蛋白对于疾病的预防、诊断和治疗至关重要。然而,没有一种蛋白质是绝对必需的;只有功能才是绝对必需的。

人类蛋白质的必要性取决于环境,与细胞类型和生理阶段密切相关。此外,人类必需蛋白质在活体人类、人类细胞系和动物模型中存在很大差异。

为了全面系统地评估人类蛋白质的必要性,北京大学的研究人员提出了一种基于深度学习的方法—— PIC;通过微调 PLM,与现有方法相比,该方法在人类蛋白质必要性预测任务上取得了最先进的性能。

PIC 模型概述

PIC 是一系列用于全面预测人类必需蛋白质的深度学习模型,包括三个不同级别的共 325 个 PIC 模型:一个用于人类水平的模型(PIC-human),一个用于小鼠水平的模型(PIC-mouse)和 323 个用于细胞系水平的模型(PIC-cell)。

蛋白质必需性数据分别从 gnomAD、OGEE-MGI 和 Project Score 数据库收集,以训练 PIC-human、PIC-mouse 和 PIC-cell(图 1a)。

图片

图 1:整体工作流程。(来源:论文)

所有 PIC 模型都具有相同的架构,包括三个主要模块:嵌入、注意和预测(图 1b)。

对于 323 个细胞级 PIC 模型,研究人员在集成学习框架中使用软投票策略来汇总 323 个细胞级 PIC 模型的预测结果,从而得到高性能的 PIC 细胞模型。

此外,团队还利用集成学习开发了 28 个疾病级 PIC 模型和 19 个组织级 PIC 模型,能够预测人类蛋白质在特定疾病或组织中的必要性。

为了优化 PIC 模型架构,他们进行了一系列消融研究和参数优化实验。结果促使研究人员选择具有 6.5 亿个参数的 ESM-2 模型进行蛋白质序列特征提取,应用平均池化方法生成完整蛋白质序列的表示(图 2)。

图片

图 2:PIC 模型的消融研究。(来源:论文)

PIC 模型的整体性能

研究人员使用准确度、召回率、精确度、F1 分数、AUROC(area under the receiver operating characteristic curve)和 AUPRC(area under the precision-recall curve)等指标评估了 PIC 模型在各自独立测试数据集上的性能。

PIC-human 的 AUROC 最高,为 0.9132,其次是 PIC-mouse,AUROC 为 0.8736。

KYSE-70 细胞级模型的 AUROC(0.8579)是 323 个细胞级 PIC 模型的中位数,被选为代表 PIC 细胞模型的平均性能(图 3a)。

图片

图 3 :PIC模型的性能展示及比较。(来源:论文)

为了进一步评估 PIC 模型的性能,研究人员将其与三种广泛使用的开源基于序列的蛋白质必要性预测模型进行了比较。在所比较的模型中,EP-EDL 和 EP-GBDT 是在细胞活力测定的综合数据集上进行训练的,而 DeepCellEss 是一个基于 323 个人类细胞系数据集数据的细胞系特定模型。

此外,团队设计了 PIC-base 作为自基线模型,该模型使用 ESM-2 直接输出的序列级特征向量进行蛋白质必要性预测。结果表明,与现有方法相比,PIC 将 AUROC 提高了 5.13–12.10%,并且还显著提高了准确率、精确率、F1 得分和 AUPRC。

鉴于DeepCellEss是细胞系特异性的,研究人员进一步在 323 个细胞系中分别比较了 PIC 和 DeepCellEss 的 AUROC 和 AUPRC 值。

结果显示,与 DeepCellEss 相比,PIC 在 323 个细胞系中的 AUROC 和 AUPRC 分别平均提高了 9.64% 和 10.52%(图 3b,c)。此外,19 种组织水平和 28 种疾病水平 PIC 细胞模型的 AUROC 值范围为 0.7543 至 0.9029。

图片

图 4:PIC 模型产生的 PES 的生物学相关性。(来源:论文)

未来探索

这里的 PIC 模型考虑了人类蛋白质重要性在不同水平上的变化,同时预测活体人类、人类细胞系和动物模型中蛋白质的必要性分数。研究人员表示,他们相信 PIC 将有利于用户全面预测和了解人类蛋白质的重要性,有助于发现治疗靶点和预后生物标志物。

图片

图 5:基于不同层级PES的跨层分析。(来源:论文)

未来该领域的探索和改进包括:(1)增强预测 PES 的可解释性。虽然该团队利用 PIC 输出的概率值定义了 PES,并对其生物学含义进行了初步的探索和分析,但对PES的核心生物学含义缺乏深入的解释,这在很大程度上是由于神经网络模型是一个黑盒子。

(2)预测和研究不同物种间蛋白质的必要性。目前,PIC 仅限于在三个层面上预测人类蛋白质的必要性,缺乏预测其他物种(如细菌或其他微生物)蛋白质必要性的能力。这种限制主要是由于非人类物种的必需性数据稀缺。

未来,构建一个统一的模型或多个物种特定模型来预测蛋白质的必需性,可以研究跨物种的共性和必需蛋白质的差异。这可能对药物发现具有重要意义,例如针对细菌中的必需蛋白质进行抗生素开发。

(3)结合蛋白质结构信息提升预测效果。PIC 模型是一种基于序列的深度学习模型,仅根据输入的蛋白质序列预测蛋白质的必要性。然而,结构信息的缺失可能会限制模型的性能。未来的模型可以整合蛋白质结构特征,从而可能更准确地预测蛋白质的必要性。

PIC 服务器:http://www.cuilab.cn/pic

论文链接:https://www.nature.com/articles/s43588-024-00733-1
理论语言模型北京大学蛋白质AI for Science
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

超参数优化技术

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
暂无评论
暂无评论~