编辑 | 萝卜皮
近日,Nature发表文章讨论Alphafold,这个能够预测蛋白质三维形状的工具已经改变了生物学。去年7月,DeepMind发布了Alphafold,它可以从蛋白质的序列中预测其三维形状,而且大部分情况下是精确的。它在CASP获得了优胜并且在今年DeepMind计划发布总数超过1亿的结构预测。生物学家们已经对AlphaFold解决结构的能力留下了深刻印象。在辅助实验方面,Alphafold提供了一个初步的近似值,可以通过实验来验证或完善,而它本身也有助于理解实验数据。另一方面制药公司和生物技术公司的研究人员对AlphaFold在帮助药物发现方面的潜力感到兴奋,目前已有基于Alphafold进行虚拟筛选、候选药物的化合物设计和蛋白质幻想设计。本文最后也讨论了Alphafold的一些局限性。
资讯链接:
https://www.nature.com/articles/d41586-022-00997-5
HUB地址:
https://hub.baai.ac.cn/view/16431
十多年来,分子生物学家 Martin Beck 团队一直在努力拼凑世界上最难的拼图游戏之一:人类细胞中最大分子机器的详细模型。
这种被称为核孔复合体的庞然大物控制着分子进出细胞核的流动,也就是基因组所在的地方。每个细胞中都存在数百个这样的复合物。每个都由超过 1,000 种蛋白质组成,这些蛋白质在穿过核膜的孔周围形成环。
这 1,000 块拼图由 30 多种蛋白质构建块组成,这些蛋白质构建块以多种方式交织在一起。使难题变得更加困难的是,这些构建块的实验确定的 3D 形状是从许多物种中收集的结构的杂烩,所以不要总是很好地融合在一起。拼图盒子上的图片——核孔复合体的低分辨率 3D 视图——缺乏足够的细节来知道有多少部分精确地组合在一起。
2016 年,由位于德国法兰克福马克斯普朗克生物物理研究所(MPIB)的 Beck 领导的一个团队报告了一个模型,该模型涵盖了大约 30% 的核孔复合体和大约 30 个构建单元中的一半,称为核蛋白。
然后,2021 年 7 月,总部位于伦敦的 DeepMind 公司(谷歌母公司 Alphabet 的一部分)公开了一款名为 AlphaFold 的人工智能(AI)工具。该软件可以从蛋白质的基因序列中预测蛋白质的 3D 形状,并且在很大程度上具有精确性。这改变了 Beck 的任务,以及成千上万其他生物学家的研究。
「AlphaFold 改变了游戏规则。」Beck 说,「这就像一场地震。你可以在任何地方看到它。」以色列耶路撒冷希伯来大学的计算结构生物学家 Ora Schueler-Furman 说,他正在使用 AlphaFold 来模拟蛋白质相互作用,「七月之前和之后都有。」
使用 AlphaFold、Beck 和 MPIB 的其他人——分子生物学家 Agnieszka Obarska-Kosinska 和由生物化学家 Gerhard Hummer 领导的小组——以及由结构建模师 Jan Kosinski 领导的团队,在德国汉堡的欧洲分子生物学实验室(EMBL),可以更准确地预测人类版本的 Nup 蛋白的形状。
通过利用帮助 AlphaFold 模拟蛋白质相互作用的调整,他们在去年 10 月成功发布了一个模型,涵盖了 60% 的复合体。它揭示了复合体如何稳定原子核中的孔,并暗示复合体如何控制进出的东西。
在过去的半年里,AlphaFold 狂热席卷了生命科学领域。「我参加的每次会议,人们都在说『为什么不使用 AlphaFold?』」伦敦大学学院的计算生物学家 Christine Orengo 说。
在某些情况下,人工智能为科学家节省了时间;在其他情况下,它使以前难以想象或非常不切实际的研究成为可能。它有局限性,一些科学家发现它的预测对于他们的工作来说太不可靠了。但实验的步伐是狂热的。
即使是开发该软件的人也在努力跟上它在从药物发现和蛋白质设计到复杂生命起源等领域的使用。「我醒来并在 Twitter 上输入 AlphaFold。」领导 DeepMind AlphaFold 团队的 John Jumper 说,「看到一切都是一种体验。」
惊人的成功
AlphaFold 在 2020 年 12 月引起了轰动,当时它主导了一场名为「蛋白质结构预测关键评估」(CASP)的比赛。该竞赛每两年举行一次,旨在衡量生物学最大挑战之一的进展:仅从氨基酸序列中确定蛋白质的 3D 形状。
计算机软件条目是根据使用X射线结晶学或低温电子显微镜(cryo EM)等实验方法确定的相同蛋白质的结构来判断的,这些方法向蛋白质发射X射线或电子束,以建立其形状的图像。
AlphaFold 的 2020 版是该软件的第二版。Jumper 说,它还赢得了 2018 年的 CASP,但其早期的努力大多不足以代替实验确定的结构。然而,AlphaFold2 的预测平均而言与经验结构相当。
目前尚不清楚 DeepMind 何时会广泛使用该软件或其预测,因此研究人员利用 Jumper 公开演讲中的信息以及他们自己的见解,开发了自己的人工智能工具,称为 RoseTTAFold。
然后在 2021 年 7 月 15 日,出现了描述 RoseTTAFold 和 AlphaFold2 的论文,以及免费提供的开源代码和专家运行他们自己的工具版本所需的其他信息。
一周后,DeepMind 宣布它已经使用 AlphaFold 预测了人类制造的几乎每一种蛋白质的结构,以及其他 20 种被广泛研究的生物体的整个「蛋白质组」,例如老鼠和大肠杆菌——超过 365,000 种共结构。
DeepMind 还将这些信息公开发布到由位于英国欣克斯顿的 EMBL 欧洲生物信息学研究所(EMBL-EBI)维护的数据库中。此后,该数据库已膨胀到近一百万个结构。
今年,DeepMind 计划发布总计超过 1 亿个结构预测。这几乎是所有已知蛋白质的一半,是蛋白质数据库(PDB)结构库中实验确定的蛋白质数量的数百倍。
AlphaFold 部署了深度学习神经网络:受大脑神经线路启发的计算架构,可识别数据中的模式。它已经接受了 PDB 和其他数据库中数十万个实验确定的蛋白质结构和序列的训练。
面对一个新序列,它首先在数据库中寻找相关序列,这些序列可以识别出倾向于一起进化的氨基酸,表明它们在 3D 空间中很接近。现有相关蛋白质的结构提供了另一种估计新序列中氨基酸对之间距离的方法。
AlphaFold 在尝试对氨基酸的 3D 位置进行建模时来回迭代来自这些平行轨迹的线索,并不断更新其估计值。
专家表示,该软件在机器学习研究中的新思想应用似乎是 AlphaFold 如此出色的原因——特别是,它使用一种称为「注意力」的人工智能机制来确定哪些氨基酸连接在任何时候对其任务最重要 .
该网络对相关蛋白质序列信息的依赖意味着 AlphaFold 存在一些局限性。它并非旨在预测突变(例如导致疾病的突变)对蛋白质形状的影响。它也没有被训练来确定在其他相互作用的蛋白质或药物等分子存在的情况下蛋白质如何改变形状。
但它的模型附带的分数可以衡量网络对其预测蛋白质每个氨基酸单元的信心——研究人员正在调整 AlphaFold 的代码以扩展其功能。
据 DeepMind 称,到目前为止,已有超过 40 万人使用了 EMBL-EBI 的 AlphaFold 数据库。还有 AlphaFold 的「超级用户」:研究人员在自己的服务器上安装了软件,或者转向基于云的 AlphaFold 版本来预测不在 EMBL-EBI 数据库中的结构,或者为该工具设想新用途。
求解结构
AlphaFold 解析结构的能力已经给生物学家留下了深刻的印象。「根据我目前所见,我非常信任 AlphaFold。」丹麦奥胡斯大学的结构生物学家 Thomas Boesen 说。
该软件已成功预测了 Boesen 中心已确定但尚未发表的蛋白质形状。「这对我来说是一个很大的验证。」他说。
他和奥胡斯微生物生态学家 TinaŠantl-Temkiv 正在使用 AlphaFold 来模拟促进冰形成的细菌蛋白质的结构——这可能有助于云中冰的冷却效果——因为生物学家还无法通过实验完全确定这些结构。
斯德哥尔摩大学的蛋白质生物信息学家 Arne Elofsson 表示,只要一种蛋白质卷曲成一个明确定义的 3D 形状——而且并非全部如此——AlphaFold 的预测就很难被击败。「这是一种一键式解决方案,可能是您将获得的最佳模型。」
Elofsson 说,在 AlphaFold 不太自信的地方,「它非常擅长告诉你什么时候它不起作用」。在这种情况下,预测的结构可能类似于浮动的意大利面条。
这通常对应于缺乏确定形状的蛋白质区域,至少在隔离时是这样。这种本质上无序的区域——约占人类蛋白质组的三分之一——可能只有在存在另一种分子(如信号伙伴)时才能得到明确定义。
伦敦癌症研究所的计算生物学家 Norman Davey 表示,AlphaFold 识别疾病的能力已经改变了他研究这些区域特性的工作。他说:「我们的预测质量立即有了巨大的提高,而我们没有付出任何努力。」
AlphaFold 将蛋白质结构转储到 EMBL-EBI 数据库中的数据也立即投入使用。Orengo 的团队正在搜索它以识别新的蛋白质种类(没有通过实验验证它们),并且已经发现了数百甚至数千个潜在的新蛋白质家族,扩大了科学家对蛋白质外观和功能的了解。
在另一项研究中,该团队正在搜索从海洋和废水中采集的 DNA 序列数据库,以尝试识别新的食用塑料酶。使用 AlphaFold 快速近似数千种蛋白质的结构,研究人员希望更好地了解酶如何进化以分解塑料,并有可能改进它们。
马萨诸塞州剑桥市哈佛大学的进化生物学家 Sergey Ovchinnikov 说,将任何蛋白质编码基因序列转化为可靠结构的能力对于进化研究来说应该是特别强大的。
研究人员比较基因序列以确定生物及其基因在物种间的相关性。对于远缘相关的基因,比较可能无法找到进化亲属,因为序列发生了很大变化。但通过比较蛋白质结构——其变化往往不如基因序列快——研究人员或许能够发现被忽视的古老关系。
苏黎世瑞士联邦理工学院的计算生物学家 Pedro Beltrao 说:「这为研究蛋白质进化和生命起源提供了一个绝佳的机会。」
为了验证这一观点,首尔国立大学计算生物学家 Martin Steinegger 团队使用他们开发的名为 Foldseek 的工具,在 EMBL-EBI 的 AlphaFold 数据库中寻找 SARS-CoV-2 RNA 复制酶的亲属。
这项研究发现了以前未知的可能的远古亲属:真核生物中的蛋白质——包括粘液霉菌——在其 3D 结构中类似于被称为逆转录酶的酶,艾滋病毒等病毒利用逆转录酶将 RNA 复制到 DNA 中,尽管在基因序列水平上几乎没有相似性。
实验助理
对于想要确定特定蛋白质的详细结构的科学家来说,AlphaFold 预测不一定是立竿见影的解决方案。相反,它提供了一个可以通过实验验证或改进的初始近似值——它本身有助于理解实验数据。例如,来自 X 射线晶体学的原始数据显示为衍射 X 射线的图案。通常,科学家需要对蛋白质结构进行初步猜测才能解释这些模式。
英国剑桥大学的结构生物学家 Randy Read 说,以前,他们经常将来自 PDB 中相关蛋白质的信息拼凑起来,或者使用实验方法,他的实验室专门研究其中一些方法。
现在,AlphaFold 的预测使得大多数 X 射线模式不需要这种方法,Read 说,他的实验室正在努力在实验模型中更好地利用 AlphaFold。「我们完全重新调整了研究重点。」
他和其他研究人员已经使用 AlphaFold 从 X 射线数据中确定晶体结构,这些数据在没有足够的起始模型的情况下是无法解释的。「人们正在解决多年来一直没有解决的结构。」Claudia Millán Nebot 说,他是 Read 实验室的前博士后,现在在剑桥的分析公司 SciBite 工作。她预计会看到大量新的蛋白质结构提交给 PDB,这在很大程度上是 AlphaFold 的结果。
专门从事冷冻电镜研究的实验室也是如此,它可以捕捉快速冷冻蛋白质的照片。在某些情况下,AlpHouple的模型已经准确地预测了称为G-蛋白偶联受体(GPCRs)的蛋白质的独特特征,这些蛋白是重要的药物靶标-其他的计算工具出错了,北卡罗来纳大学教堂山分校的结构生物学家和药理学家Bryan Roth说:「它似乎非常适合生成第一个模型,然后我们用一些实验数据对其进行改进。这为我们节省了一些时间。」
但 Roth 补充说,AlphaFold 并不总是那么准确。他说,在他的实验室已经解决但尚未发表的几十个 GPCR 结构中,「大约有一半的时间,AlphaFold 结构相当好,而有一半的时间它们或多或少对我们的目的毫无用处」。
他说,在某些情况下,AlphaFold 以高置信度标记预测,但实验结构表明它是错误的。即使软件做对了,它也无法模拟蛋白质与药物或其他小分子(配体)结合时的外观,这会大大改变结构。这些警告让 Roth 想知道 AlphaFold 对药物发现有多大用处。
在药物发现工作中,使用计算对接软件越来越普遍,该软件可以筛选数十亿个小分子,以找到一些可能与蛋白质结合的分子——这表明它们可以制造有用的药物。
Roth 现在正与加州大学旧金山分校的药物化学家 Brian Shoichet 合作,以了解 AlphaFold 的预测如何与本练习中通过实验确定的结构进行比较。
Shoichet 说,他们将工作限制在 AlphaFold 的预测与实验结构相吻合的蛋白质上。但即使在这些情况下,对接软件也会为实验结构和 AlphaFold 提供不同的药物命中率,这表明微小的差异可能很重要。「这并不意味着我们不会找到新的配体,我们只会找到不同的配体,」Shoichet 说。他的团队现在正在合成使用 AlphaFold 结构识别的潜在药物,并在实验室中测试它们的活性。
批判性乐观
Shoichet 说,制药公司和生物技术公司的研究人员对 AlphaFold 帮助药物发现的潜力感到兴奋。「批判性的乐观是我描述它的方式。」 2021 年 11 月,DeepMind 推出了自己的衍生产品 IsoMorphic Labs,旨在将 AlphaFold 和其他 AI 工具应用于药物发现。但该公司对其计划只字未提。
Karen Akinsanya 领导着 Schrödinger 的治疗开发,Schrödinger 是一家总部位于纽约市的药物发现公司,也发布了化学模拟软件,她说她们团队已经在虚拟屏幕、 GPCR、候选药物的化合物设计中使用 AlphaFold 结构取得了一些成功 。
她发现,就像实验结构一样,需要额外的软件来获取氨基酸侧链或单个氢原子可能所在位置的详细信息。一旦完成,AlphaFold 结构已被证明足以指导药物发现——在某些情况下。
「很难说『这是灵丹妙药』;因为你可以为一个结构做得很好——令人惊讶和令人兴奋的——它非常适用于所有结构。显然不是!」Akinsanya 说,她的团队发现,AlphaFold 的准确性预测并不能显示一个结构是否对以后的药物筛选有用。她表示,AlphaFold 结构永远不会完全取代药物发现中的实验性结构。但他们可能会通过补充实验方法来加速这一过程。
对 AlphaFold 感到好奇的药物开发人员在 1 月份收到了好消息,当时 DeepMind 取消了对其用于商业应用的关键限制。当该公司在 2021 年 7 月发布了 AlpHouple 的代码时,它规定了运行 AlphaFold 神经网络所需的参数或权值,这是对成千上万个蛋白质结构和序列进行网络训练的最终结果,仅用于非商业用途。Akinsanya 说,这对行业中的一些人来说是一个瓶颈,当 DeepMind 改变策略时出现了一股「兴奋的浪潮」。(RoseTTAFold 也有类似的限制,其开发人员之一 Ovchinnikov 说,但下一个版本将完全开源。)
人工智能工具不仅改变了科学家确定蛋白质外观的方式。一些研究人员正在使用它们来制造全新的蛋白质。「深度学习正在彻底改变我小组中蛋白质设计的方式。」西雅图华盛顿大学的生物化学家、蛋白质设计和预测其结构领域的领导者 David Baker 说。他的团队与计算化学家 Minkyung Baek 一起领导了开发 RoseTTAFold 的工作。
Baker 的团队让 AlphaFold 和 RoseTTAFold 能够「产生幻觉」新的蛋白质。研究人员已经改变了人工智能代码,因此,给定氨基酸的随机序列,软件将对其进行优化,直到它们类似于神经网络识别为蛋白质的东西。
2021 年 12 月,Baker 团队报告说,在细菌中表达了 129 种这些幻觉蛋白,并发现其中约五分之一折叠成类似于其预测形状的东西。「这确实是第一次证明你可以使用这些网络设计蛋白质。」Baker 说。他的团队现在正在使用这种方法来设计做有用事情的蛋白质,例如催化特定的化学反应,方法是指定负责所需功能的氨基酸,并让 AI 幻想生成其余部分。
破解 AlphaFold
当 DeepMind 发布其 AlphaFold 代码时,Ovchinnikov 想要更好地了解该工具的工作原理。几天之内,他和包括 Steinegger 在内的计算生物学同事建立了一个名为 ColabFold 的网站,允许任何人向 AlphaFold 或 RoseTTAFold 提交蛋白质序列并获得结构预测。
Ovchinnikov 设想他和其他科学家会使用 ColabFold 来尝试「破坏」AlphaFold,例如,通过提供有关目标蛋白质序列进化亲属的虚假信息。通过这样做,Ovchinnikov 希望他能够确定网络是如何学会如此出色地预测结构的。
事实证明,大多数使用 ColabFold 的研究人员只是想获得蛋白质结构。但其他人将其用作修改 AlphaFold 的输入以处理新应用程序的平台。「我没想到会出现各种类型的黑客攻击,」Jumper 说。
到目前为止,最流行的黑客攻击是在蛋白质复合物上使用该工具,该复合物由多个相互作用的——通常是相互交织的——肽链组成。就像核孔复合物一样,细胞中的许多蛋白质在与多个蛋白质亚基形成复合物时发挥作用。
AlphaFold 旨在预测单个肽链的形状,其训练完全由此类蛋白质组成。但该网络似乎已经了解了一些关于复合物如何折叠在一起的知识。在 AlphaFold 的代码发布几天后,东京大学的蛋白质生物信息学家 Yoshitaka Moriwaki 在推特上表示,如果将两个蛋白质序列与一个长的接头序列缝合在一起,它可以准确地预测它们之间的相互作用。Baek 很快分享了另一个从开发 RoseTTAFold 中收集到的预测复合物的技巧。
ColabFold 后来加入了预测复合物的能力。并且在 2021 年 10 月,DeepMind 发布了一个名为 AlphaFold-Multimer 的更新,该更新专门针对蛋白质复合物进行训练,与其前身不同。Jumper 的团队将其应用于 PDB 中的数千个复合物,发现它预测了大约 70% 的已知蛋白质-蛋白质相互作用。
这些工具已经在帮助研究人员发现潜在的新蛋白质伙伴。Elofsson 的团队使用 AlphaFold 预测了 65,000 个人类蛋白质对的结构,这些蛋白质对根据实验数据被怀疑相互作用。Baker 领导的一个团队使用 AlphaFold 和 RoseTTAFold 来模拟酵母编码的几乎每一对蛋白质之间的相互作用,识别出 100 多种以前未知的复合物。
Elofsson 说,这样的屏幕只是起点。他们在预测某些蛋白质配对方面做得很好,尤其是那些稳定但难以识别更多瞬时相互作用的蛋白质配对。「因为它看起来不错并不意味着它是正确的。」Elofsson 说,「你需要一些实验数据来证明你是对的。」
Kosinski 说,核孔复合体工作是预测和实验数据如何协同工作的一个很好的例子。「这并不是说我们将所有 30 种蛋白质都放入 AlphaFold 中并取出结构。」为了将预测的蛋白质结构组合在一起,该团队使用了核孔复合物的 3D 图像,这些图像是使用一种称为低温电子断层扫描的低温电子显微镜拍摄的。在一个例子中,可以确定蛋白质接近度的实验在复合物的两个成分之间产生了令人惊讶的相互作用,AlphaFold 的模型随后证实了这一点。
Kosinski 将团队当前的核孔复合体地图视为实验和模拟的起点,这些实验和模拟检查了孔复合体的功能,以及它如何在疾病中出现故障。
AlphaFold 的限制
对于 AlphaFold 取得的所有进展,科学家们表示,重要的是要清楚它的局限性——特别是因为不专门预测蛋白质结构的研究人员会使用它。
尝试将 AlphaFold 应用于破坏蛋白质自然结构的各种突变,包括与早期乳腺癌相关的突变,已证实该软件无法预测蛋白质新突变的后果,因为没有进化相关的序列可供检查。
AlphaFold 团队现在正在考虑如何设计神经网络来处理新的突变。Jumper 预计这将需要网络更好地预测蛋白质如何从展开状态变为折叠状态。
纽约市哥伦比亚大学的计算生物学家 Mohammed AlQuraishi 说,这可能需要仅依靠它所学到的蛋白质物理学知识来预测结构的软件。「我们感兴趣的一件事是在不使用进化信息的情况下从单个序列进行预测。」他说,「这是一个尚未解决的关键问题。」
AlphaFold 也被设计用来预测一个单一的结构,尽管它已经被黑客破解了不止一个。但是许多蛋白质具有多种构象,这对其功能可能很重要。「AlphaFold 不能真正处理可以采用不同构象的不同结构的蛋白质,」Schueler-Furman 说。并且预测是针对孤立结构的,而许多蛋白质与配体(如 DNA 和 RNA)、脂肪分子和矿物质(如铁)一起发挥作用。「我们仍然缺少配体,我们缺少关于蛋白质的其他一切。」Elofsson 说。
AlQuraishi 说,开发这些下一代神经网络将是一个巨大的挑战。AlphaFold 依赖于数十年的研究,这些研究产生了网络可以学习的蛋白质实验结构。目前无法获得如此大量的数据来捕捉蛋白质动力学,或者蛋白质可以与之相互作用的数万亿个小分子的形状。Jumper 补充说,PDB 包括蛋白质与其他分子相互作用时的结构,但这仅捕获了一小部分化学多样性。
研究人员认为,他们需要时间来确定如何最好地使用 AlphaFold 和相关的人工智能工具。AlQuraishi 看到了电视早期的相似之处,当时一些节目由广播电台组成,只是阅读新闻。「我认为我们将找到我们尚未想到的结构的新应用。」
AlphaFold 革命的终点在哪里,谁也说不准。「事情变化太快了。」Baker 说,「即使在明年,我们也将看到使用这些工具取得的重大突破。」
EMBL-EBI 的计算生物学家 Janet Thornton 认为,AlphaFold 的最大影响之一可能只是说服生物学家对计算和理论方法的见解更加开放。「对我来说,革命就是思维方式的改变。」她说。
AlphaFold 革命激发了 Kosinski 的远大梦想。他认为受 AlphaFold 启发的工具不仅可用于对单个蛋白质和复合物进行建模,还可以对整个细胞器甚至细胞进行建模,直至单个蛋白质分子的水平。「这是我们未来几十年的梦想。」
相关报道:https://www.nature.com/articles/d41586-022-00997-5