Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

提速1400倍,准确标注酶活性位点,浙大、澳门理工多模态深度学习方法,登Nature子刊

图片

编辑 | 萝卜皮

注释酶中的活性位点对于药物发现、疾病研究、酶工程和合成生物学等多个领域的发展至关重要。尽管已经开发出许多自动注释算法,但速度和准确性之间的重大权衡限制了它们的大规模实际应用。

浙江大学、澳门理工大学等机构的联合研究团队引入了 EasIFA,一种酶活性位点注释算法,它融合了来自蛋白质语言模型和 3D 结构编码器的潜在酶表示,然后使用多模态交叉注意框架将蛋白质水平信息与酶促反应知识对齐。

EasIFA 比 BLASTp 速度提升 10 倍,召回率、准确率、f1 分数和 MCC 分别提升 7.57%、13.08%、9.68% 和 0.1012。

它还超越了基于经验规则的算法和其他基于 PSSM 特征的最先进的深度学习注释方法,在提高注释质量的同时实现了 650 到 1400 倍的速度提升。这使得 EasIFA 成为工业和学术环境中传统工具的合适替代品。

EasIFA 还可以有效地将从粗略注释的酶数据库获得的知识转移到较小的高精度数据集,突出了其对稀疏和高质量数据库进行建模的能力。

此外,EasIFA 还显示出作为催化位点监测工具的潜力,可用于设计具有超出其自然分布所需功能的酶。

该研究以「Multi-modal deep learning enables efficient and accurate annotation of enzymatic active sites」为题,于 2024 年 8 月 27 日发布在《Nature Communications》。

图片

注释酶活性位点具有挑战性

酶作为生化反应的催化剂,在加速生物系统内外的化学反应中起着至关重要的作用。它们对于促进生长、新陈代谢和预防疾病等维持生命的过程至关重要。酶活性主要由活性位点的三维结构决定,这使得酶能够特异性地结合某些底物并催化化学转化。

尽管 DNA 测序技术的进步使得研究人员能够每天从不同物种和来源获得大量的酶序列,但准确注释活性位点仍然是一项艰巨的挑战。

UniProt 数据库显示,尽管已鉴定出超过四千万个酶序列,但其中只有不到 0.7% 的序列对其活性位点进行了高质量的注释。鉴于测序酶的年增长率惊人,通过实验技术对所有酶进行注释是不现实的。

尽管已经开发出可靠的方法来注释酶的功能(例如,预测酶的佣金数量),并且已经投入了大量研究来开发用于预测蛋白质活性位点的算法,但仍然缺乏可靠、快速且强大的工具来注释酶活性位点。

这主要是因为预测酶活性位点本身就很复杂,因为工具需要精确了解酶与其特定底物之间的关系以及反应类型,并区分各种类型的活性位点,例如直接参与反应的结合位点和催化位点。

此外,高质量的酶活性位点注释数据稀缺。这些因素对传统的蛋白质活性位点预测工具提出了重大挑战。

因此,准确预测酶活性位点的方法对于生物学、药理学和生物工程领域的各种科学研究至关重要。正确理解酶促反应对于推进药物设计和发现、阐明疾病机制和促进酶工程的进展有着重要意义。

新的多模态 DL 方法应对挑战

为了解决现有酶活性位点注释算法所面临的挑战,浙江大学、澳门理工大学等机构的联合研究团队提出了一种基于深度学习的酶活性位点注释算法 EasIFA。

图片

图示:EasIFA 模型架构。(来源:论文)

EasIFA 的创新之处在于:

(1)使用 PLMs-Structure 融合方法来表示酶,从而生成更全面的酶结构信息描述;

(2)通过基于图注意网络的反应表示分支引入特定的酶反应作为附加特征,并在大型有机化学数据集上进行预训练,可以表示相对有限的酶反应信息;

(3)使用基于注意机制的可解释跨模态交互网络将酶反应信息整合到酶表示中,即将酶和其催化的生化反应的表征结合起来,完成活性位点注释的任务。

通过多次计算验证,EasIFA 算法不仅在 (1) 定位活性位点和 (2) 注释其类型的预测准确度方面优于所有基准算法,而且还表现出卓越的预测速度。

图片

图示:SwissProt E-RXN ASA 测试集中的性能指标。(来源:论文)

在 SwissProt E-RXN ASA 数据集上的实验结果表明,EasIFA 在注释酶活性位点方面明显优于目前主流算法(即 BLASTp、AEGAN 和 SiteMap)。

此外,与在催化位点预测任务中表现出类似性能的基于 PSSM 特征的图网络算法相比,EasIFA 算法的推理速度提高了约 1400 倍。

具体来说,EasIFA 比最先进的模型 AEGAN 快 1300 倍,比使用整个 SwissProt 作为知识库的 BLASTp 快 10 倍,召回率额外提升了 7.85%。

得益于 EasIFA 在注释酶活性位点方面的高质量和极快的速度,研究人员还基于该算法开发了一个用户友好的网络服务器计算工具。

图片

相关工具:http://easifa.iddd.group

为了克服不同数据库中相同酶活性位点的注释趋势和标准的显著差异,研究人员采用了迁移学习的方法,尝试在具有不同注释特征和趋势的酶活性位点库之间进行知识转移。

这使得在大型、粗略注释的数据库上训练的模型可以转移到较小的、精细注释的数据集上。在 MCSA 等高质量数据库上训练的 EasIFA 模型有望与 EzMechanism 等自动酶机制注释方法产生协同作用,扩大酶反应催化机制数据库的知识领域。

EasIFA 能够从大规模、相对粗略的注释数据训练过渡到高质量、手动注释的酶催化位点机制数据集,并保持高水平的预测准确性。经过转移训练的 EasIFA 模型有望与 EzMechanism 等自动酶催化机制预测方法协同工作,增强酶反应催化机制数据库的覆盖范围。

图片

图示:用于支架活性位点酶设计的活性监测器和可解释的案例研究。(来源:论文)

另外,研究人员探索了 EasIFA 作为催化位点监测器在具有挑战性的酶设计任务中的潜力,并开发了一种工作流程,将从天然酶中学到的活性位点知识扩展到更广泛的人工酶领域,这些人工酶可能来自完全不同的分布。

EasIFA 算法的酶反应信息相互作用网络可以通过注意力机制提取酶与其特定反应之间的机制信息。可视化突出显示与催化残基最相关的反应底物原子,具有很高的可解释性。

结语

总体而言,EasIFA 可以轻松取代业界和学术界常用的标准注释工具。在大多数情况下,它可以稳健地处理大规模酶活性位点注释任务,减轻研究人员的负担和成本,并促进药物设计、疾病机制阐明和酶工程的发展。

论文链接:https://www.nature.com/articles/s41467-024-51511-6

理论
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~