Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

化学诺奖为何颁给「AI+生物」,凭什么Baker独占一半?

编辑 | X_X

今年的诺贝尔化学奖授予了在蛋白质设计和结构预测领域从事研究工作的三位科学家。该奖项的一半颁发给了美国西雅图华盛顿大学的 David Baker,另一半颁发给了来自英国 Google DeepMind 的 Demis Hassabis 和 John Jumper。

诺贝尔化学奖委员会主席 Heiner Linke 指出,今年的诺贝尔化学奖如同「双花并蒂」!他们一方面构建出全新蛋白质结构;另一方面则基于氨基酸序列实现蛋白质结构预测。这两项科学突破,携手开辟出巨大的可能性!

图片

「这三位都当之无愧!」哥伦比亚大学的「网红」科学家 Mohammed AlQuraishi 发文祝贺道。

于此同时,许多朋友可能会疑惑,为什么化学奖会颁发给生物领域呢?为什么蛋白质结构值得获得诺贝尔奖呢?获奖的三位科学家都什么来头?连续两个诺贝尔奖项涉及 AI,AI for Science 的前景是否一片大好……

接下来,我们将依次解答你的疑惑。

为什么蛋白质结构值得获得诺贝尔奖?

蛋白质是生命的化学工具,蛋白质有很多种,它们在我们体内发挥着不同的作用。每种蛋白质都由一串氨基酸组成,这些氨基酸折叠成特定的三维形状或结构,每种蛋白质的功能都与该形状密切相关。了解蛋白质的结构有助于我们理解其工作原理,几十年来,科学家一直在研究如何弄清蛋白质结构,这带来了许多挑战。

图片图示:蛋白质由一长串氨基酸序列组成。每个特定序列都会折叠成特定的 3D 形状或结构,使蛋白质能够在体内发挥其功能。(来源:Johan Jarnestad/瑞典皇家科学院)

蛋白质结构研究一直是诺贝尔化学奖青睐的对象,至今已颁发十余次奖项,既包括重要蛋白(或复合物)的解析,也包括新技术或新方法的突破,因此该领域长期来看是生命科学前沿和焦点。

图片

图示:蛋白质结构研究与诺贝尔化学奖。

20 世纪 50 年代,X 射线晶体学的发展使研究人员能够获得蛋白质的第一个 3D 结构。John Kendrew 和 Max Perutz 因这项工作于 1962 年获得诺贝尔化学奖。此后,核磁共振和低温电子显微镜等其他实验方法也加入到工具包中,研究人员现已确定了大约 200,000 种蛋白质的结构。

1972 年,美国生物化学家 Christian Anfinsen 因发现氨基酸序列决定了多肽链的折叠方式,并且不需要额外的遗传信息而获得诺贝尔化学奖。这意味着,理论上,只要知道蛋白质的氨基酸序列,就应该可以预测其形状。

这一发现导致了长达 50 年的探索,来找到一种从蛋白质的氨基酸序列预测其 3D 结构的方法,但蛋白质理论上可能的构象数量简而言之是天文数字。

这种所谓的「预测问题」成为生物化学领域的巨大挑战,1994 年启动了一个名为「蛋白质结构预测关键评估」(CASP)的项目,后来演变为竞赛,旨在加速该领域的发现。然而,直到多年后才取得重大突破。

而刚刚获得诺贝尔化学奖的三位科学家,Demis Hassabis 和 John Jumper 使用 AI 仅根据蛋白质序列预测其三维结构。与此同时,David Baker 开发了可以解决逆问题的计算方法:从具有特定结构的蛋白质开始,找出其序列,创造出以前不存在的全新蛋白质。

所有这些工作都建立在几十年来对蛋白质结构的研究和诺贝尔化学奖的基础上。

诺贝尔化学奖得主 David Baker 什么来头?

在科学的世界里,许多伟大的成就往往源于一个偶然的契机。David Baker 的故事便是如此。

图片

图示:美国生化学家、华盛顿大学蛋白质设计研究所所长 David Baker。(来源:Baker 实验室官网)

1962 年,David Baker 出生在美国西雅图,父亲是一名物理学家,母亲研究天体物理和大气科学。但是从小在科学家庭中长大 Baker 最初对科学却没有什么兴趣。

1980 年代早期,他在哈佛大学攻读哲学和社会科学专业,然而,正是在大学的最后一年,他选修了一门发育生物学课程,改变了他的人生轨迹。

在这门课上,他被一项来自生物化学家 Christian Anfinsen 的经典实验深深吸引。实验表明,RNA 酶在加入蛋白质变性剂后失去活性,但当变性剂被去除后,它的活性又神奇地恢复了。这一现象激发了 Baker 对蛋白质折叠机制的强烈兴趣,促使他转向生物学领域,继续深造。

于是,在加州大学伯克利分校,Baker 加入了 2013 年诺贝尔生理或医学奖得主 Randy Schekman 的实验室,开发了一种检测细胞运输过程的方法。在那时,他与来自耶鲁大学做同领域研究的 Hannele Ruohola 相识,并最终结为连理。

1989 年,Baker 博士毕业,然后加入了加州大学旧金山分校结构生物学家 David Agard 的实验室。最初,他只是想短期学习结构生物学,但很快便对蛋白质的氨基酸序列如何折叠成各种结构产生了浓厚的兴趣。

1993 年,Baker 回到家乡加入了华盛顿大学西雅图分校,开始了独立的研究生涯。他的目标是开发一套可以根据氨基酸序列预测蛋白质结构的软件,这便是后来声名显赫的 Rosetta 系列软件。

Rosetta 的名字来源于古埃及的罗塞塔石碑,这一石碑揭开了古埃及象形文字的秘密,而 Baker 希望通过 Rosetta 软件,解决蛋白质序列与结构之间的关系。

20 世纪末,随着人类基因组计划的进展,科学家们获取了大量基因序列,但对于这些序列所对应的蛋白质结构却知之甚少。

Baker 意识到,若能通过计算预测蛋白质结构,将能极大地推动生物学研究的发展。因此,他的团队参与了马里兰大学举办的蛋白质结构预测技术的关键评估(CASP)比赛。Baker 的 Rosetta 软件在比赛中逐渐崭露头角,成为蛋白质结构预测领域的佼佼者。

在 Rosetta 软件的基础上,Baker 团队于 2005 年推出了 Rosetta@home 项目,利用全球用户电脑的闲置算力进行蛋白质计算。

同年,他们推出了名为 Foldit 的电子游戏,用户可以在游戏中操控简单的蛋白质结构,设计不同功能的蛋白质或者药物。这促进了科学家对蛋白质折叠算法的优化。该游戏的成功,表明了集体智慧在科学研究中的重要性。图片

图示:Foldit 游戏界面。(来源:Foldit)

游戏网址:https://fold.it/

随着 Rosetta 软件的不断发展,Baker 意识到如何在保护知识产权的同时,吸引更多的开发者参与成为一个新的挑战。为此,他创建了 RosettaCommons 社区,允许科研人员自由使用 Rosetta,同时为商用代码收取费用,从而支持后续开发。这种开放的合作模式使 Rosetta 的影响力持续扩大。

2020 年 11 月,第 14 届 CASP 大赛上,DeepMind 公司的 AlphaFold2 模型(另外两位诺奖得主 Demis Hassabis 和 John Jumper 是 AlphaFold 系列模型的开发者)以其惊人的准确性震撼了整个学术界,成为新的蛋白质结构预测明星。

虽然 Baker 的 Rosetta 软件未能在此次比赛中夺冠,但他和团队迅速从 AlphaFold2 的演讲展示中汲取灵感,开发出基于深度学习的新平台——RoseTTAFold。该平台借鉴了 AlphaFold2 的技术,使得蛋白质结构预测的能力得到了进一步提升。

项目地址:https://github.com/RosettaCommons/RoseTTAFold

2021 年,Baker 团队正式发布了 RoseTTAFold 的在线版本。同时,DeepMind 也公开了 AlphaFold2 的论文和源代码,标志着学术界与商业公司之间的合作进入了一个新的阶段。这一过程中,Baker 强调了科学研究中共享和合作的重要性。

除了在蛋白质结构预测方面的突破,Baker 的研究还扩展到了蛋白质设计领域。他希望通过计算方法,设计出全新的蛋白质,以满足特定的功能需求。

早在 2003 年,Baker 团队里的 Brian Kuhlman 和 Gautam Dantas 就设计了一个含有 93 个氨基酸残基的 α/β 蛋白,具有全新的拓扑结构,能够自动折叠成球状并非常稳定。这个蛋白被命名为 Top7,这是人类第一次获得了非自然界来源的全新蛋白质,代表着人类在从头设计蛋白领域迈出了一大步。David Baker也因此被一些媒体称为「上帝之手」。

Top7虽然惊艳了科学界,但它只是基于特定结构的设计,并没有任何功能。从头设计出有实际功能的全新蛋白质对科学界而言依然是极具挑战性的工作。近年来,随着机器学习等新技术的发展,使得蛋白质的「从头设计」成为了可能。

2024 年,Baker 团队在蛋白质设计领域再创佳绩,成功设计出一种新型环形蛋白,能够调控成纤维细胞生长因子(FGF)信号通路,为这一领域的未来发展开辟了新的方向。Baker 团队开发的 RoseTTAFold All-Atom 可以将氨基酸和 DNA 碱基的基于残基的表示与所有其他基团的原子表示相结合,从而对包含蛋白质、核酸、小分子、金属和给定序列和化学结构的共价修饰的组件进行建模。

项目地址:

https://github.com/baker-laboratory/RoseTTAFold-All-Atom

https://neurosnap.ai/service/RoseTTAFold%20All-Atom

此外,Baker 还积极将科研成果转化为商业应用,参与创办了多家公司,如 Icosavax(利用病毒样颗粒开发针对传染病的疫苗,2022年12月被阿斯利康收购。)和 PvP Biologics(开发过一款 KumaMax 的口服酶,可以治疗对小麦等食品中的谷蛋白过敏,2020年被武田制药收购。)以及 AI 制药公司 Xaira Therapeutics,成功推动了多项技术的产业化。

结构生物学的湿实验工作会结束吗?

蛋白质设计和结构预测领域的科学家获得诺贝尔奖,是科学界对「AI for Biology Science」领域的极大认可。

如今,蛋白质计算领域的 AI 工具如 AlphaFold3、RoseTTAFold All-Atom、RFdiffusion,已经可以准确预测蛋白质、DNA、RNA、小分子配体结构以及其相互作用模式;改进的蛋白质设计工具已经可以更轻松地解决具有挑战性的药物靶点,可以从头开始设计抗体药物……是不是意味着,传统结构生物学领域的湿实验研究会迎来结束呢?

毫无疑问,像 AlphaFold 这样的 AI 蛋白质结构预测工具的开发代表了结构生物学的一个重要里程碑,但它们并不能取代实验结构测定。实验确定的结构仍然优于预测,它们也需要为下一代 AI 工具生成训练数据集,并用于评估这些工具在预测结构方面的性能。

药物设计就是持续需要湿实验方法的一个例子。虽然确定蛋白质的结构有助于产生下一步要制造什么化合物的想法,但还有许多其他与蛋白质生物活性有关的海量因素需要考虑,例如药代动力学、代谢和毒理学,目前这些因素无法完全使用 AI 来解决。

结构生物学的未来更有可能是将高通量实验研究与人工智能相结合,而不是 AI 替代所有。

Baker 实验室近期部分研究一览

2024 年 9 月 25 日,David Baker 团队开发了一种基于 RoseTTAFold 的序列空间扩散模型 ProteinGenerator (PG),可同时生成蛋白质序列和结构,相关研究发布在《Nature Biotechnology》上。

2024 年 8 月 14 日,Baker 团队设计出了能够通过变构控制,可靠而准确地在组装和拆卸之间转换的蛋白质。研究人员利用 AI 设计自然界中不存在的新蛋白质,设计了多种动态蛋白质排列。相关研究发布在《Nature》上,《Nature》称之为「蛋白质设计的惊人突破」。

2024 年 3 月 18 日,Baker 团队对其去年发布的 AI 工具 RFdiffusion 进行了改进。首次使用生成式 AI 来帮助他们制造全新的抗体。这代表了应用 AI 蛋白质设计工具制造新抗体的重要一步。相关研究发布在预印平台 bioRxiv 上。

2024 年 3 月 7 日,Baker 团队蛋白质设计新工具 RoseTTAFold All-Atom 登上《Science》,将结构预测推广到所有生物分子,成功对蛋白质、核酸、小分子、金属和给定序列和化学结构的共价修饰的组件进行建模。

2024 年 1 月 25 日,Baker 和哈佛医学院 George Church 在《Science》上发表题为「Protein design meets biosecurity」的评论文章。讨论了AI 在计算蛋白质设计中的应用,以及这种技术可能带来的风险。

2023 年 7 月 11 日,Baker 团队发布最新版 RFdiffusion,能够设计更加真实的蛋白质。发布在《Nature》

2023 年 2 月 22 日,Baker 团队设计了一种基于深度学习的「family-wide hallucination」方法,生成大量理想化的蛋白质结构,这些结构包含不同的口袋形状和编码它们的设计序列。这项研究可谓是蛋白设计领域中的一项重要里程碑。

2022 年 12 月 10 日,Baker 团队推出 RoseTTAFold Diffusion (RFdiffusion) 扩散模型。RFdiffusion 能够从简单的分子规格设计多样化、复杂、功能性的蛋白质。发布在 BioRxiv 预印平台。

2021 年 7 月 15 日,Baker 团队研发出了一款基于深度学习的蛋白质预测新工具 RoseTTAFold,在预测蛋白质结构上取得了媲美 AlphaFold2 的超高准确率,而且速度更快、所需要的计算机处理能力也较低。

……

未来的路还很长

现年 62 岁的 Baker 依然活跃于科研一线,热爱登山和探险,他认为科研与登山有很多相似之处,都是对坚韧精神与团队合作的考验。

展望未来,随着对蛋白质理解的深入,Baker 无疑将继续引领科学的前沿。他的成就不仅是个人的辉煌,更是科学研究和技术创新的丰硕成果。

随着蛋白质「按需设计」时代的到来,David Baker 和他的团队所作出的贡献将被历史铭记,并激励着未来的科学家们在探索未知的旅程中不断前行。

这次的故事先讲到这里,另外两位诺奖得主有怎样的传奇故事?那个在蛋白质结构预测领域独领风骚的 AlphaFold 是如何震撼科学界的?在 AI 的影响下传统生命科学的未来将何去何从?

请关注《化学诺奖为何颁给「AI+生物」》系列内容的下篇。

参考内容:

https://www.chemistryworld.com/news/explainer-why-have-protein-design-and-structure-prediction-won-the-2024-nobel-prize-in-chemistry/4020309.article

https://en.wikipedia.org/wiki/Rosetta@home

https://cen.acs.org/biological-chemistry/biochemistry/Protein-wrangler-serial-entrepreneur-community-builder-Inside-David-Baker-brain/97/i30

https://www.arturorobertazzi.it/2023/09/60-years-in-the-making-alphafolds-historical-breakthrough-in-protein-structure-prediction

https://www.nature.com/articles/s41587-023-02111-0

https://www.nature.com/articles/d41586-024-00846-7

https://cen.acs.org/analytical-chemistry/structural-biology/new-tool-protein-designers/101/i36

https://www.science.org/doi/10.1126/science.adl2528

https://mp.weixin.qq.com/s/Pje_jmgHNLJbyX0BOY2iMw

理论
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

集体智慧技术

英文collective intelligence,也称集体智能、群智等称,此术语中intelligence即为智力、智能。(注意,有几个英文单词都有“群”的含义,目前大陆科技论文中,一般“群体智能”、“群智能”是指另外一个术语,其“群”字的英文原文是另一个词)

推荐文章
暂无评论
暂无评论~