2024/11/13 15:25

AI面临的五个蛋白质设计问题，Nature找了一群专家来讨论

编辑 | 白菜叶

Alena Khmelinskaia 希望设计定制蛋白质就像订餐一样简单。她说，想象一下一台「自动售货机」，任何研究人员都可以使用它来指定他们想要的蛋白质的功能、大小、位置、分子伴侣或者其他特征。「理想情况下，你会得到一个可以同时完成所有这些事情的完美设计。」德国慕尼黑大学（LMU）的生物物理化学家 Khmelinskaia 说。

目前，这只是一个梦想。但计算蛋白质设计和机器学习的进步使其比以往任何时候都更接近现实。

直到几年前，研究人员还通过将蛋白质克隆到细菌或酵母中，诱导微生物变异，直到产生所需的产物来改变蛋白质。科学家也可以通过故意改变其氨基酸序列来手动设计蛋白质，但这是一个费力的过程，可能会导致蛋白质折叠错误或阻止细胞产生蛋白质。

机器学习算法彻底改变了游戏规则。研究人员可以使用人工智能（AI）驱动的工具（例如 RFdiffusion 和 Chroma）在笔记本电脑上生成新的蛋白质结构，这些工具已在蛋白质数据库（PDB）中的数十万种结构上进行训练。

他们可以使用 ProteinMPNN 等算法识别与该结构匹配的序列。RoseTTAFold 和 AlphaFold 可以根据序列计算结构，预测新蛋白质是否可能正确折叠。只有这样，研究人员才需要合成物理蛋白质并测试其是否按预期发挥作用。

在很多情况下，确实如此。「一旦人们看到实验数据，他们就会明白这个东西是可行的。」Khmelinskaia 在谈到人工智能蛋白质设计时说道，「人们对可能实现的事情感到兴奋。」

今年的诺贝尔化学奖委员会同意这一观点：AlphaFold 和其他预测或设计蛋白质结构的程序为其开发者赢得了 2024 年的奖项。「我们现在可以预测蛋白质结构并设计我们自己的蛋白质，这给人类带来了最大的利益。」公告中写道。

然而，最大的好处可能尚未到来。《自然》杂志采访了相关专家，探讨了蛋白质设计面临的最大挑战以及如何克服这些挑战。

以下是他们的说法。

建立可靠的粘合剂

蛋白质设计师面临的早期挑战之一是预测蛋白质如何相互结合——这是制药行业的一个主要目标，因为特定蛋白质的「结合剂」可以作为激活或抑制疾病途径的药物。

华盛顿大学计算蛋白质设计先驱、2024 年诺贝尔化学奖获得者 David Baker 表示，RFdiffusion 和 AlphaProteo 等生成式 AI 程序让这项任务变得简单，他的团队开发了 RFdiffusion 和其他蛋白质设计工具。「例如，如果你想针对某种癌症蛋白质，并且想要一种粘合剂，我们开发的方法通常可以为你提供解决该问题的方法。」他说。

一些蛋白质，例如遍布免疫细胞表面的跨膜分子，仍然难以破解。但对于大多数蛋白质，生成式人工智能软件可以生成像手一样精确包裹目标的粘合剂。例如，2023 年，Baker 团队使用 RFdiffusion 创建了传感器蛋白，当它们附着在特定肽激素上时会发光。

蛋白质 - 蛋白质结合算法之所以成功，是因为它们的语言很简单：所有天然蛋白质都由相同的 20 种氨基酸组成。马萨诸塞州萨默维尔的 Generate Biomedicines 公司使用 AI 设计疗法，其计算机科学家 John Ingraham 表示，PDB 中有数十万种结构和蛋白质 - 蛋白质相互作用，「这就像是机器学习的理想情况」。科学家们一直在研究使用人工智能工具设计大型简单结合蛋白库。

但是，人工智能训练的数据越少，结合剂的可靠性就越低，用于结合药物和其他小分子的蛋白质就是这种情况。许多制药公司都有自己的小分子结构数据库以及它们如何与蛋白质相互作用的数据库，但这些都是严格保密的。

谷歌 DeepMind 伦敦分部的计算生物学家 Jue Wang 表示，现有的公开数据并不总是注释良好，可用的结构往往只代表少数分子类别。「使用以此为基础训练的模型，你不一定能学到有关化学的良好一般规则。」他说。

今年早些时候，DeepMind 发布了该软件的最新版本 AlphaFold3，它可以预测蛋白质与小分子的结合如何影响其形状。该公司表示：「对于蛋白质与其他分子类型的相互作用，与现有预测方法相比，我们的预测准确率至少提高了 50%，对于一些重要的相互作用类别，我们的预测准确率提高了一倍。」

但 Baker 表示，这一难题尚未完全解决。例如，某种物质结合良好并不意味着它能按预期发挥作用。Khmelinskaia 表示，结合蛋白可以激活或阻断其靶标，但 AlphaFold 等程序不一定能分辨出两者的区别。（她指出，一些算法确实结合了功能，包括 ESM3。该软件由纽约市一家名为 EvolutionaryScale 的公司开发，经过了 27 亿个蛋白质序列、结构和功能的训练。）

生成式人工智能系统还有其他局限性，包括倾向于「产生幻觉」，产生自然界中不可能存在的蛋白质结构。纽约市哥伦比亚大学的计算生物学家 Mohammed AlQuraishi 说，人工智能「总是试图取悦别人」，「它永远不会说『不，这不可行』。」

Ingraham 说，更好地了解生物物理学可能会有所帮助，但有关蛋白质如何与分子结合的更多更好的数据也会有所帮助。他的公司正在通过强力手段攻克这一难题，尽可能多地使用有关蛋白质相互作用和功能的数据，并将其与由他们的模型生成的设计高通量数据相结合。

「我们正在尝试寻找通用解决方案。」他说，「然后尽可能多地利用蛋白质信息。」

新的催化剂

科学家们对计算工具将带来具有全新功能的酶寄予厚望：例如，可以从大气中清除二氧化碳的催化剂，或者可以有效分解环境塑料的酶。合乎逻辑的起点是具有类似功能的天然酶。例如，一种破坏氢硅键的酶可能成为破坏碳硅键的人工酶的支架。

但相似的蛋白质形状并不一定意味着相似的功能，而外观完全不同的酶可以执行相同的任务。AlQuraishi 说，找出这些联系以及如何重建功能是蛋白质设计的一个重大挑战。「我们不讨论功能，我们讨论结构。」

此外，天然酶不一定是新活动的理想起点。马萨诸塞州波士顿哈佛医学院的系统生物学家 Debora Marks 将重新利用酶比作在城市现有的陈旧布局上修建现代道路系统。「如果你可以重新开始，你不一定会这样做。」她说。

尽管如此，天然酶的生物物理学可以为从头设计提供信息，Marks 说：「大自然已经为你做了数十亿次进化实验。」通常，研究人员通过分析酶在不同物种之间的相似程度来确定酶的哪些部分是重要的。进化保守的序列通常具有相似的结构，而不相似的序列可能只是减慢酶速度的垃圾。

但 Ingraham 说，哪些部分是重要的并不总是立即显而易见的。例如，酶侧看似无用的氨基酸链可能会影响蛋白质与其他分子的结合紧密程度或其在构象状态之间转换的能力。

一些研究人员正在开发寻找这些有用部分的方法。在 8 月份的预印本中，Baker团队利用 RFdiffusion 创建了一组称为水解酶的酶，这些酶通过多步骤过程利用水来破坏化学键。研究人员利用机器学习分析了酶的哪些部分或基序在每个步骤中处于活跃状态。

然后，他们复制了这些基序，并要求 RFdiffusion 围绕它们构建全新的蛋白质。当研究人员测试了 20 种设计时，他们发现其中两种能够以新的方式水解底物。「这长期以来一直是一个目标，现在终于解决了。」Wang 说。

不过，首尔国立大学计算生物学家 Martin Steinegger 警告称，将活性位点移入新的蛋白质环境可能很棘手。如果没有其他蛋白质来稳定结构或执行研究人员尚未确定的功能，孤立的基序可能会与其目标结合，永不松开。Steinegger 解释说，蛋白质不是静态物体，而是动态的。「每当动态出现时，我们都不擅长建模。」

构象变化

蛋白质通常不只有一种形状；它们会打开、关闭、扭曲和弯曲。这些构象会根据温度、pH、化学环境以及它们是否与其他分子结合等因素而发生变化。

然而，当研究人员试图通过实验解决蛋白质结构时，他们往往只能看到最稳定的构象，而这不一定是蛋白质活跃时的形式。「我们拍了这些快照，但它们很不稳定。」马萨诸塞州剑桥微软研究院的机器学习科学家 Kevin Yang 说。

Yang 表示，为了真正理解蛋白质的作用原理，研究人员需要了解其所有潜在的运动和构象——这些替代形式不一定在 PDB 中分类。

计算蛋白质可能移动的所有方式是极其困难的，即使对于超级计算机来说也是如此。

加州大学旧金山分校的生物工程师 Tanja Kortemme 表示，一个含有 100 个氨基酸的蛋白质（以蛋白质标准来说很小）至少可以呈现 3100 种可能的构象。「我们对物理学的理解相当不错，但将其融入其中受到我们需要计算的可能性数量的限制。」

机器学习可以帮助缩小范围，微软和其他公司正在开发加快寻找蛋白质构象所需计算的方法。但人工智能模型受到缺乏良好训练数据的限制，Wang 说：「事实通常并不存在，那么你怎么知道你得到的答案是正确的呢？」

Kortemme 表示，该领域正在通过设计大型蛋白质库（包括天然和合成的）并对其进行变异以揭示其动态来解决这个问题。

例如，她、Baker 以及众多科学家正在研究可以通过添加某些分子伴侣在两种构象之间手动切换的蛋白质。这种设计蛋白质不仅可以帮助训练人工智能模型，还可以作为更复杂的分子机器的构建模块，例如将化学能转化为机械能来完成细胞工作的酶。

其他团队已经开发出算法（如 AF-Cluster），在预测中注入一定程度的随机性，以探索替代构象。但 Steinegger 表示，这些方法是否适用于所有蛋白质类别仍不清楚。

复杂创作

酶并不是研究人员唯一关心的蛋白质类别。新蛋白质还可以作为构建模块使用，例如通过自组装成将货物运送到细胞中的结构、产生物理力或展开阿尔茨海默氏症等疾病中错误折叠的蛋白质。

这些复杂结构的计算设计已经产生了影响。2022 年和 2023 年，韩国和英国分别批准紧急使用 COVID-19 疫苗，这是第一种由计算设计的蛋白质制成的医疗产品。这种疫苗名为 SKYCovione，是一种纳米颗粒，含有两种蛋白质成分，可引发针对 SARS-CoV-2 病毒刺突蛋白的免疫反应。

在临床试验中，SKYCovione 产生的抗体水平是商用疫苗的三倍，Khmelinskaia 表示，它的成功表明计算蛋白质设计已准备好应用于现实世界。「现在真的可以开始瞄准许多以前不可能实现的有趣途径了。」她说。

Khmelinskaia 的实验室正在使用机器学习算法开发空心纳米粒子，这种粒子可以携带药物或毒素进入细胞，或者隔离不需要的分子。她说，这需要了解设计蛋白质的构象动力学，因为粒子及其有效载荷需要能够穿过细胞膜然后打开（或关闭）。

但这只是其中一种功能。对于细菌鞭毛等更复杂的结构，机器学习能做的有限——因为没有足够的易于理解的例子可供参考。「如果我们有 10 万或 100 万种不同的分子机器，也许我们可以训练一种生成式人工智能方法，从头开始生成机器，但事实并非如此。」Baker 说。

这意味着人类研究人员需要考虑组成分子机器的组件（例如马达或沿着另一种蛋白质「行走」的蛋白质），并使用设计工具逐个创建这些构件。这些组件可能包括分子开关、轮子和轴，或仅在特定条件下起作用的「逻辑门」系统。

Kortemme 解释道：「每次制造复杂的机器时，你不需要重新发明轮子。」她的实验室正在设计可以整合到合成信号转导级联中的细胞信号分子。

Wang 说，正是在这些部件的巧妙组合中，人类的创造力才会脱颖而出。「我们开始用蛋白质制造螺丝、螺栓、杠杆和滑轮。」他表示，「但你要用那个滑轮做什么呢？这是最有趣也是最具挑战性的方面。」

从错误中学习

虽然 Khmelinskaia 设想了「自动售货机」，但即使是最好的预测算法也离一次性生成准确蛋白质还有一段距离。

「以前算法有 99.99% 的时间无法正常工作。」AlQuraishi 说，「现在更像是只有 99% 的时间会失败。」

Steinegger 说，这在一定程度上是物流问题。计算研究人员可以反复运行他们的算法，直到找到看起来可行的算法，而像他这样的算法设计团队「大约每三四个月就会有新的创新」。

Steinegger 估计，在生物系统中验证设计的蛋白质可能需要两年时间，届时软件已开始发挥作用。

这种不匹配意味着算法很少有机会从错误中吸取教训。研究人员往往不会发表负面结果，即使这些失败可能带来有用的信息，例如蛋白质在特定条件下的细胞毒性或稳定性。

除非科研资助模式发生根本性变化以激励此类披露，否则研究人员必须发挥创造力。「组建一支能够同时涵盖所有这些方面的团队极具挑战性。」Khmelinskaia 解释道，她指的是蛋白质设计研究的实验和计算方面。因此，合作是必须的。

「我们目前处于计算机资源和数据都准备就绪的阶段，这也是为什么这个领域如此受欢迎的原因。」Yang 说，「合作的人越多，进步就越快。」

相关内容：https://www.nature.com/articles/d41586-024-03595-9

产业生物计算AIAI for Science蛋白质