Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

西湖大学开发ESM-Ezy:一种用于挖掘高性能酶的深度学习策略

图片

图示:相关 MCO 的晶体结构。(来源:论文)

编辑 | 白菜叶

UniProt 数据库是生物催化剂发现的宝贵资源,但预测酶功能仍然具有挑战性,尤其是对于低相似性序列。识别具有增强催化性能的优质酶更加困难。

为了克服这些挑战,西湖大学的研究团队开发了 ESM-Ezy,这是一种利用 ESM-1b 蛋白质语言模型和语义空间相似性计算的酶挖掘策略。

利用 ESM-Ezy,研究人员鉴定出具有优异催化性能的新型多铜氧化酶 (MCO),在至少一项性能(包括催化效率、耐热、耐有机溶剂性以及 pH 稳定性)方面优于查询酶 (QE) 的成功率达到 44%。

值得注意的是,51% 的 MCO 在环境修复应用中表现出色,其中一些表现出独特的结构基序和独特的活性中心,从而增强了其功能。除 MCO 外,40% 的 L-天冬酰胺酶比 QE 具有更高的比活性和催化效率。

因此,ESM-Ezy 为发现具有低序列相似性的高性能生物催化剂提供了一种有前景的方法。

该研究以「ESM-Ezy: a deep learning strategy for the mining of novel multicopper oxidases with superior properties」为题,于 2025 年 4 月 6 日发布在《Nature Communications》。

图片

科学家通常会从通过序列相似性网络(SSN)分析确定的簇中随机选择候选酶。然而,这种反复试验的方法通常效率低下,并且会延长发现过程。

此外,尽管 PLM 最近已成功用于指导蛋白质工程、抗体设计、酶功能评估(如 CLEAN 和 TM-Vec)和远程同源性检测(如 PLMSearch),但它们尚未用于探索低序列同源性区域中酶的催化特性。西湖大学团队开发的 ESM-Ezy 解决了这些以前未解决的挑战。

图片

图示:ESM-Ezy 工作流程。(来源:论文)

ESM-Ezy 是一种由 ESM-1b 辅助的深度学习策略,用于探索具有低序列相似性的新型 MCO,从而以高成功率改善催化性能。

通过使用小型但高质量的数据集对 ESM-1b 进行微调,并根据与查询酶(QE)的较短欧几里得距离选择候选者,研究人员成功识别出具有低序列相似度(大多低于 35%)的新 MCO,表现出优异的催化性能。

图片

图示:对新挖掘的 MCO 和 QE 进行评估。(来源:论文)

几乎 89% 的测试 MCO 成功催化了 2,2'-连氮-双(3-乙基苯并噻唑啉-6-磺酸)二铵盐 (ABTS) 氧化,其中 44% 与 QE 相比,至少一种催化性能有所增强,包括更高的催化效率、更好的热和有机溶剂耐受性以及更宽的 pH 范围。

研究人员发现硫是迄今为止报道的最耐热的 MCO 之一,在 80°C 下半衰期长达 156.9 分钟,并首次用独特的 Cu-Mn 杂原子中心表征了 Bfre。

该团队还评估了新发现的 MCO 在无介质生物修复应用中的性能。53% 的 MCO 比 QE 更有效地使 Remazol Brilliant Blue R (RBBR) 脱色。Talbi 在室温下降解了氯霉素 (CAP),其性能优于之前的真菌系统。

此外,Bcece 在孵育 48 小时后显示出降解 39.4% 黄曲霉毒素 B1 (AFB1) 的能力,与其他细菌 MCO 在温和条件下相比,表现出更优异的无介质降解效率。

为了评估 ESM-Ezy 方法的普遍适用性,研究人员将其应用于 l-天冬酰胺酶(l-天冬酰胺酰胺水解酶;EC 3.5.1.1),该酶可催化 l-天冬酰胺水解为氨和 l-天冬氨酸。这种酶已显示出显著的治疗潜力,特别是在治疗儿童急性淋巴细胞白血病方面。

图片

图示:对新挖掘的 MCO 进行生物修复的评估。(来源:论文)

他们对 ESM-1b 进行了微调用于搜索 l-天冬酰胺酶。他们选择了来自枯草芽孢杆菌 168 的 l-天冬酰胺酶 (UniProt: O34482) 作为 QE,并确定了五种候选酶。

与 QE 相比,A0A3N5F6J4 和 H1D2G7 分别表现出约 2.0 倍和 4.1 倍的比活性以及 2.0 倍和 3.0 倍的 kcat。这些结果表明,ESM-Ezy 可以成功识别除氧化还原酶之外具有优异催化性能的酶。

总体而言,ESM-Ezy 帮助研究人员丰富了 MCO 库,提高了催化活性并增加了结构多样性,促进了它们在各种工业环境中的应用。

ESM-Ezy:https://github.com/westlake-repl/ESM-Ezy

论文链接:https://www.nature.com/articles/s41467-025-58521-y

产业
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

欧几里得距离技术

在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。 使用这个距离,欧氏空间成为度量空间。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~