![图片](https://image.jiqizhixin.com/uploads/editor/f33aef58-b90e-4194-aeb0-29e2d21692ae/640.png)
编辑 | 萝卜皮
蛋白质是维持细胞运转的主要动力,细胞中有成千上万种蛋白质,每种蛋白质都发挥着特殊的功能。研究人员早就知道,蛋白质的结构决定了它的功能。最近,科学家逐渐意识到,蛋白质的定位对其功能也至关重要。
细胞中充满了有助于组织众多细胞成分的隔间。除了生物教科书上常见的细胞器外,这些空间还包括各种动态的无膜隔间(称为亚细胞区室),它们将某些分子聚集在一起,发挥共同的功能。
细胞已经进化出将约 100 亿个蛋白质分子分配到亚细胞区室的机制,这些区室中必须组装具有共同功能的各种蛋白质。
在最新的研究中,麻省理工学院(MIT)和怀特黑德生物医学研究所(Whitehead Institute for Biomedical Research)的研究团队,证明具有共同功能的蛋白质共享氨基酸序列代码,这些代码会引导它们到达区室目的地。
他们开发了一种蛋白质语言模型 ProtGPS,它可以高效地预测训练集中排除的人类蛋白质的区室定位。
ProtGPS 成功指导了选择性组装在核仁中的新型蛋白质序列的生成,并且发现了改变该密码并导致蛋白质亚细胞定位改变的病理突变。
这些结果表明,蛋白质序列不仅包含折叠密码,还包含一个以前未被识别的密码,控制它们在不同亚细胞区室中的分布。
该研究以「Protein codes promote selective subcellular compartmentalization」为题,于 2025 年 2 月 5 日发布在《Science》。
参与共享功能的蛋白质组必须有效组装才能发挥其生理功能。例如,基因转录的保真度取决于启动子上一百多种不同蛋白质的组装,其中一些蛋白质直接与 DNA 序列结合,而另一些则与 DNA 结合蛋白质相互作用。
选择性蛋白质-蛋白质和蛋白质-核酸相互作用,被认为是导致特定蛋白质在执行不同功能的位置组装的主要驱动力。
蛋白质结构稳定部分之间的形状互补性一直是蛋白质组装的主要模型,但现在有大量证据表明,具有共同功能的蛋白质的大型组装也通过弱多价非共价相互作用发生。
几乎所有细胞功能都涉及此类组装的形成,这些组装被描述为凝聚物、聚集物、斑点、枢纽和非膜结合区室。
了解特定蛋白质在这些区室的定位位置以及与什么分子共定位,有助于更好地了解该蛋白质及其在健康或患病细胞中的作用,但研究人员缺乏系统的方法来预测这些信息。
蛋白质还含有氨基酸区域,这些区域不会折叠成固定结构,但对于帮助蛋白质加入细胞中的动态隔间非常重要。怀特黑德研究所成员、麻省理工学院教授 Richard A. Young 的团队想知道这些区域中的代码是否可以用来预测蛋白质定位,就像其他区域用于预测结构一样。
MIT 和怀特黑德生物医学研究所的研究人员提出了 ProtGPS,它可以预测蛋白质在细胞中选择性组装成特定凝聚物区室的情况,并用于指导生成新的蛋白质序列,这些序列的细胞区室化在很大程度上可以通过实验验证。
研究人员表明,ProtGPS 可以预测蛋白质将定位到 12 种已知类型的区室中的哪一种,以及与疾病相关的突变是否会改变这种定位。此外,研究小组还开发了一种生成算法,可以设计新的蛋白质来定位到特定的区室。
Young 说:「我希望这是迈向强大平台的第一步,使人们能够研究蛋白质,并帮助我们了解人类如何发展成为复杂的生物体,突变如何破坏这些自然过程,以及如何产生治疗假设和设计药物来治疗细胞功能障碍。」
麻省理工学院 Regina Barzilay 教授表示:「能够从计算设计一路走到实验室尝试这些东西,我真的很兴奋。人工智能领域有很多令人兴奋的论文,但其中 99.9% 从未在实际系统中进行测试。感谢我们与 Young 实验室的合作,我们能够测试并真正了解我们的算法表现如何。」
图示:生成模型可以创造出聚集在所需凝聚物中的新型蛋白质。(来源:论文)
他们通过向 ProtGPS 输入超过 200,000 种具有疾病相关突变的蛋白质来测试这一假设,然后要求它预测这些突变蛋白质的位置,并测量其对给定蛋白质的预测从正常版本到突变版本的变化程度。预测的巨大变化表明定位可能发生了变化。
研究人员发现,许多情况下,与疾病相关的突变似乎会改变蛋白质的定位。他们在细胞中测试了 20 个例子,使用荧光来比较正常蛋白质和突变蛋白质在细胞中的位置。实验证实了 ProtGPS 的预测。
总而言之,这些发现支持了研究人员的猜测,即错误定位可能是疾病的一种未被充分重视的机制,并证明了 ProtGPS 作为了解疾病和寻找新治疗途径的工具的价值。
参与者之一 Ilan Mitnikov 说:「细胞是一个复杂的系统,包含许多组件和复杂的相互作用网络。利用这种方法,我们可以扰乱系统,观察结果,从而推动细胞机制的发现,甚至开发基于此的治疗方法,这真是太有趣了。」
研究人员希望人们能够多多使用 ProtGPS,就像使用 AlphaFold 等预测结构模型一样,推进有关蛋白质功能、功能障碍和疾病的各种项目。
图示:预计致病突变会改变蛋白质的区室化。(来源:论文)
研究人员对他们的预测模型的可能用途感到兴奋,但他们也希望他们的模型能够超越预测现有蛋白质的定位,并允许他们设计全新的蛋白质。目标是让该模型组成全新的氨基酸序列,当这些序列在细胞中形成时,它们将定位到所需的位置。
想要生成一种能够真正发挥功能(在本例中,即定位到特定细胞区室的功能)的新型蛋白质极其困难。为了提高模型的成功率,研究人员将算法限制为仅设计自然界中发现的蛋白质。
出于合理的原因,这是药物设计中常用的方法;大自然已经用了数十亿年的时间来弄清楚哪些蛋白质序列有效,哪些无效。
研究参与者 Itamar Chinn 表示:「很多论文表明,他们可以设计出一种可以在细胞中表达的蛋白质,但并未表明这种蛋白质具有特定功能。实际上,我们设计了一种功能性蛋白质,与其他生成模型相比,成功率相对较高。这对我们来说真的非常令人兴奋,我们希望在此基础上继续发展。」
「现在我们知道这种用于定位的蛋白质代码是存在的,而且机器学习模型可以理解这种代码,甚至利用它的逻辑创造出功能性蛋白质,这为许多潜在的研究和应用打开了大门。」论文的第一作者 Henry Kilgore 说。
论文链接:https://www.science.org/doi/10.1126/science.adq2634
相关报道:https://phys.org/news/2025-02-ai-deciphers-code-proteins.html