编辑 | 萝卜皮
2024 年夏天 EvolutionaryScale 推出了 ESM3,一款面向蛋白质语言的大模型,成功在自然进化未曾涉足的区域设计出功能性蛋白。同期上线了该研究的预印版本。
时隔半年,该研究以「Simulating 500 million years of evolution with a language model」为题,于 2025 年 1 月 16 日在《Science》发布。
让我们简单回顾一下。
超过 30 亿年的进化产生了编码在天然蛋白质空间中的生物图像。
论文里,研究人员展示了在进化数据上进行大规模训练的语言模型,可以生成远离已知蛋白质的功能性蛋白质。
他们提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。
ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biological alignment)反应灵敏,从而提高其保真度。
研究人员使用 ESM3 设计了一种名为 esmGFP 的新荧光蛋白,它与已知最相似的荧光蛋白序列同源性仅为 58%,这在以往的人工设计中是极为罕见的。
通过指导 ESM3 关注荧光蛋白形成和催化色素体反应所必需的序列和结构特征,模型经过一系列迭代设计,最终产生了具有明亮荧光效果的 esmGFP。
该蛋白不仅在序列上与已知蛋白有显著差异,而且在实验中展现出与常见荧光蛋白相似的荧光强度。这相当于跨越了超过 5 亿年的自然进化距离。
关于 EvolutionaryScale
EvolutionaryScale 是一家非盈利公司。他们的使命是通过与科学界合作以及开放、安全和负责任的研究,开发人工智能来理解生物学,造福人类健康和社会。
自成立以来,ESM 项目一直致力于通过代码和模型发布来开放科学,该团队承诺将继续坚持下去。
该公司成立于 2023 年 7 月已经完成 1.42 亿美元种子轮融资,并已经与亚马逊(Amazon)和英伟达(NVIDIA)公司达成合作。
论文链接: https://www.science.org/doi/10.1126/science.ads0018