Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

基于深度学习的酶小分子底物预测通用模型

编辑 | 萝卜皮

酶是所有活细胞中的重要生物催化剂:它们促进化学反应,通过化学反应,所有对生物体重要的分子都是从基本物质(底物)产生的。大多数生物体拥有数千种不同的酶,每一种都负责一种非常特殊的反应。所有酶的共同作用构成了新陈代谢,从而为机体的生命和生存提供了条件。

尽管编码酶的基因可以很容易地识别出来,但在绝大多数(超过 99%)的情况下,合成酶的确切功能是未知的。这是因为它们功能的实验表征——即特定酶将哪些起始分子转化为哪些具体的末端分子——非常耗时。

杜塞尔多夫大学(HHU)的研究人员介绍了 ESP,这是一种用于预测酶-底物对的通用机器学习模型,在独立和多样化的测试数据上的准确度超过 91%。ESP 可以成功应用于训练数据中包含的广泛不同的酶和广泛的代谢物,优于为单独的、经过充分研究的酶家族设计的模型。

ESP 通过修改后的 Transformer 模型代表酶,并根据随机抽样的小分子分配为非底物的数据进行训练。通过促进潜在基板的简单计算机测试,ESP 网络服务器可以支持基础科学和应用科学。

该研究以「A general model to predict small molecule substrates of enzymes based on machine and deep learning」为题于 2023 年 5 月 15 日发布在《Nature Communications》。


酶的进化可以有效地催化一种或多种特定的化学反应,将反应速率提高到自发速率的一百万倍以上。此外,大多数酶是混杂的,即它们进一步催化与生理无关甚至有害的反应。因此,酶-底物关系的综合映射在药物研究和生物工程中起着至关重要的作用,例如,用于药物、化学品、食品和生物燃料的生产。

不幸的是,通过实验确定给定酶催化哪些反应既昂贵又耗时。因此,预测为酶的蛋白质数量与其底物范围的实验知识之间存在巨大的不平衡。虽然 UniProt 数据库包含超过 3600 万种不同酶的条目,但其中超过 99% 的酶缺乏对催化反应的高质量注释。科学家正在努力开发用于实验测定酶-底物关系的高通量方法,但这些方法仍处于起步阶段。

科学家的目标是开发一个单一的机器学习模型,能够预测所有蛋白质之间的酶-底物关系,从而提供一种工具,有助于将实验工作集中在可能具有生物学相关性的酶-小分子对上。开发这样一个模型面临两大挑战。

首先,必须获得为下游预测任务提供最多信息的每种酶的数值表示。为了尽可能广泛适用,这些表示应仅基于酶的一级序列,而不需要其他特征,例如结合位点特征。其次,公共酶数据库仅列出阳性实例,即酶显示可测量活性的分子(底物)。因此,为了训练预测模型,必须设计一种自动策略来获得合适的阴性、非结合酶-小分子实例。

现有的用于预测酶-底物对的机器学习方法要么是专门为小型酶家族开发的,这些家族拥有非常全面的训练数据集,要么它们只能将底物与 EC 类联系起来,但不能与特定的酶联系起来。

在最新的研究中,杜塞尔多夫大学的研究人员通过使用定制的、任务特定版本的 ESM-1b transformer 模型创建信息量超大的蛋白质表示,超越了当前最先进的技术。该模型包含一个额外的 1280 维标记,它经过端到端训练从而存储对下游预测任务重要的酶相关信息。这种通用方法最初是为自然语言处理而引入的,但尚未应用于蛋白质特征预测。


图示:模型概述。(来源:论文)

研究的负责人 Martin Lercher 教授说:「我们的 ESP 模型的特殊之处在于,我们不像以前的模型那样局限于个别的、特殊的酶和与它们密切相关的其他酶。我们的通用模型可以处理酶和 1,000 多种不同底物的任意组合。」

研究人员通过在实验证实的酶-底物对中随机抽取类似于底物的小分子,使用数据增强创建了负面训练示例。他们从一组有限的代谢物中采样了所有负数据点,这些代谢物是一组约 1400 种底物,出现在数据集的所有实验证实的酶-底物对中。

因此,不会从与真实底物相似的所有可能替代反应物的空间中取样,而是只考虑可能至少在某些生物细胞中出现的小分子。虽然许多酶相当混杂,但对于任何给定的酶,大多数潜在的次级底物很可能不包含在这个限制集中,因此采样假阴性数据点的机会可能很小。

研究人员用图神经网络 (GNN) 创建的特定任务指纹用数字表示所有小分子。梯度提升决策树模型在蛋白质和小分子组合表示上进行了训练,以获得高质量数据集,该数据集包含约 18,000 个非常多样化、经实验证实的阳性酶-底物对。由此产生的酶底物预测模型——ESP——对训练集中的约 1400 种底物实现了高预测准确性,并且优于之前发布的酶家族特异性预测模型。

该研究的主要作者、博士生 Alexander Kroll 说:「以这种方式训练模型后,我们将其应用于我们已经知道正确答案的独立测试数据集。在 91% 的情况下,该模型正确预测了哪些底物与哪些酶相匹配。」

这种方法提供了广泛的潜在应用。在药物研究和生物技术中,了解哪些物质可以被酶转化是非常重要的。Lercher 教授说:「这将使研究和工业界能够将大量可能的配对缩小到最有希望的配对,然后他们可以将其用于酶法生产新药、化学品甚至生物燃料。」

Kroll 补充道,「它还将能够创建改进的模型来模拟细胞的新陈代谢。此外,它将帮助我们了解各种生物体的生理学——从细菌到人。」

论文链接:https://www.nature.com/articles/s41467-023-38347-2

相关报道:https://phys.org/news/2023-05-ai-function-enzymes.html

理论
暂无评论
暂无评论~