Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

模拟5亿年进化的ESM3在Science发布了,可推理蛋白质序列、结构和功能

编辑 | 萝卜皮

2024 年夏天 EvolutionaryScale 推出了 ESM3,一款面向蛋白质语言的大模型,成功在自然进化未曾涉足的区域设计出功能性蛋白。同期上线了该研究的预印版本。

时隔半年,该研究以「Simulating 500 million years of evolution with a language model」为题,于 2025 年 1 月 16 日在《Science》发布。

图片

让我们简单回顾一下。

超过 30 亿年的进化产生了编码在天然蛋白质空间中的生物图像。

论文里,研究人员展示了在进化数据上进行大规模训练的语言模型,可以生成远离已知蛋白质的功能性蛋白质。

他们提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。

图片

图示:ESM3 可以同时推理蛋白质序列、结构和功能。(来源:论文)

ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biological alignment)反应灵敏,从而提高其保真度。


图片

图示:ESM3 通过序列、结构和功能的多模态提示为 PETase 活性位点设计了一个支架。(来源:论文)

研究人员使用 ESM3 设计了一种名为 esmGFP 的新荧光蛋白,它与已知最相似的荧光蛋白序列同源性仅为 58%,这在以往的人工设计中是极为罕见的。

通过指导 ESM3 关注荧光蛋白形成和催化色素体反应所必需的序列和结构特征,模型经过一系列迭代设计,最终产生了具有明亮荧光效果的 esmGFP。

图片
图示:esmGFP 与已知荧光蛋白比较。(来源:论文)

该蛋白不仅在序列上与已知蛋白有显著差异,而且在实验中展现出与常见荧光蛋白相似的荧光强度。这相当于跨越了超过 5 亿年的自然进化距离。

关于 EvolutionaryScale

EvolutionaryScale 是一家非盈利公司。他们的使命是通过与科学界合作以及开放、安全和负责任的研究,开发人工智能来理解生物学,造福人类健康和社会。

自成立以来,ESM 项目一直致力于通过代码和模型发布来开放科学,该团队承诺将继续坚持下去。

该公司成立于 2023 年 7 月已经完成 1.42 亿美元种子轮融资,并已经与亚马逊(Amazon)和英伟达(NVIDIA)公司达成合作。

论文链接: https://www.science.org/doi/10.1126/science.ads0018

相关内容:
https://x.com/ScienceMagazine/status/1880012426503962927
https://www.evolutionaryscale.ai/blog/esm3-release
产业生物学科学人工智能蛋白质AI for Science
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~