Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

准确预测蛋白质功能,中山大学基于几何图学习的酶工程新方法

图片

编辑 | 萝卜皮

酶在许多生物过程中起着至关重要的作用,Enzyme Commission(EC)编号是编码酶功能的常用方法。然而,目前的 EC 编号预测技术尚未充分认识到酶活性位点和结构特征的重要性。

中山大学的研究团队提出了 GraphEC,这是一个基于几何图学习的 EC 数量预测器,使用 ESMFold 预测结构和预训练的蛋白质语言模型。同时,GraphEC 能够从蛋白质结构中提取功能信息。

该技术可用于识别未注释的酶功能,以及预测其活性位点和最佳 pH 值,有可能促进合成生物学、基因组学和其他领域的进步。

该研究以「Accurately predicting enzyme functions through geometric graph learning on ESMFold-predicted structures」为题,于 2024 年 9 月 18 日发布在《Nature Communications》。

图片

酶通过催化多种反应在各种生物过程中发挥着重要作用。识别酶的功能对于研究代谢和疾病至关重要。通常采用酶委员会(EC)编号来将酶的功能表述为四位数字的结构,这提供了统一的方案并加快了酶工程领域的进步。然而,通过实验确定 EC 编号既费时又费钱,开发用于识别 EC 编号的计算方法已势在必行。

在最新的研究中,中山大学的研究团队提出了 GraphEC(geometric Graph learning-based EC number annotation),这是一种基于预测的蛋白质结构和酶活性位点的酶功能预测精确网络。

图片

图示:GraphEC 概述。(来源:论文)

GraphEC 是一种基于几何图学习的精确 EC 数量预测器,它将酶活性位点和预测的蛋白质结构纳入酶功能预测中。给定一个蛋白质序列,用 ESMFold 预测其结构并用于构建蛋白质图。

通过预测结构提取几何特征,并通过预训练语言模型 (PtrotTrans) 计算序列嵌入来增强这些特征。这些特征被输入到几何图形学习网络中,用于学习几何嵌入,用于预测活性位点、EC 值和最佳 pH 值。

图片

图示:酶 EC 数预测。(来源:论文)

在这里,首先通过 GraphEC-AS 预测酶活性位点,并为每个残基分配权重分数。在权重分数的指导下,使用注意层和池化层计算 EC 数量的初始预测,并通过提取同源信息通过标签扩散算法进一步改进。最后,通过注意力池将模型扩展至最佳pH值预测,以更好地表示反应条件(GraphEC-pH)。

通过对多个独立测试的全面比较,该模型在预测活性位点、EC 值和最适 pH 方面优于所有最先进的方法。进一步分析表明,GraphEC 能够从酶结构中学习功能信息,进一步强调了几何图学习的有效性。

图片

图示:GraphEC 可以从蛋白质结构中提取功能信息。(来源:论文)

虽然 GraphEC 表现出色,但在多个方面仍有改进空间。考虑到预测结构质量的影响,未来可以探索通过改善结构质量或合并其他序列特征来增强模型的稳定性。此外,随着大型语言模型的不断发展,研究人员可以利用它们从文本描述中提取重要信息并增强模型的预测能力。

总而言之,该团队开发了一种准确、快速的 EC 数量预测器 GraphEC。研究人员可以利用它仅从酶序列中准确预测酶的功能。对于特定的酶,研究人员可以进一步分析它们的功能区域(活性位点)并确定它们的反应条件(pH值),这将有助于实验研究。

论文链接:https://www.nature.com/articles/s41467-024-52533-w

产业语言模型AI蛋白质中山大学
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~