编辑 | 萝卜皮
从冷冻电子显微镜密度图准确构建三维原子结构,是基于冷冻电子显微镜的蛋白质结构测定的关键步骤。对于缺乏准确同源结构或预测结构作为模板的蛋白质,将密度图转换为三维原子结构仍然是一项重大挑战。
密苏里大学(University of Missouri)的研究人员介绍一种全自动冷冻电子显微镜从头结构建模方法 Cryo2Struct。
Cryo2Struct 利用 3D transformer 识别冷冻电子显微镜密度图中的原子和氨基酸类型,然后使用创新的隐马尔可夫模型 (HMM) 连接预测的原子并构建蛋白质骨架结构。
Cryo2Struct 生成的蛋白质结构模型比广泛使用的从头算方法 Phenix 准确得多、更完整。此外,其在构建原子结构模型方面的性能,对密度图分辨率和蛋白质结构尺寸的变化具有很强的稳定性。
该研究以「De novo atomic protein structure modeling for cryoEM density maps using 3D transformer and HMM」为题,于 2024 年 6 月 29 日发布在《Nature Communications》。
确定大分子(如蛋白质复合物和组装体)的三维(3D)原子结构是结构生物学的基础。原子的 3D 排列为了解蛋白质分子功能的机制提供了重要见解。
近年来,冷冻电子显微镜(cryo-EM)已成为实验确定大型蛋白质复合物和组装体结构的关键技术。
然而,从高分辨率冷冻电子显微镜密度图(占 EMDB 中存储的图谱的很大一部分)建模原子蛋白质结构既耗时又具有挑战性,特别是在从头设置下,当无法获得目标蛋白质或其单元(链)的准确同源或预测结构时。
利用冷冻电子显微镜图建模原子蛋白质结构面临的挑战包括:在密度图中识别蛋白质原子,以及追踪原子形成链以形成主链结构并用它们记录氨基酸序列。
虽然这个问题非常重要,但目前只有少数方法被开发出来从冷冻电子显微镜图上确定原子结构,例如 Phenix、DeepMainmast、DeepTracer 和 ModelAngelo。
然而,对于现有方法来说,从冷冻电子显微镜密度图建模多链蛋白质结构仍然是一项具有挑战性的任务,特别是当对用作模板的目标蛋白质复合物或它们的链的结构预测不准确时。
仅从密度图而不使用模板对蛋白质结构进行从头建模不仅在这种情况下具有实际意义,而且还可以帮助回答一个重要问题:仅从冷冻电子显微镜密度图可以提取多少结构信息?
在从头建模环境中,密苏里大学(University of Missouri)的研究人员引入了 Cryo2Struct(cryo-EM to structure),这是一种全自动从头计算建模方法,不需要预测或同源结构作为输入,仅从冷冻电子显微镜密度图生成 3D 原子结构。
图示:Cryo2Struct 工作流程概述。(来源:论文)
Cryo2Struct 首先使用基于 Transformer 的深度学习模型和注意力机制来识别冷冻电子显微镜密度图中的原子及其氨基酸类型。
然后,它使用创新的生成隐马尔可夫模型(HMM)和定制的维特比算法将蛋白质序列与预测的原子和氨基酸类型对齐,以生成原子骨架结构。
在中高分辨率下准确识别 Cα 原子,Cryo2Struct 展现出比广泛使用的 Phenix 方法更优的性能,特别是在 Cα 召回率、F1 分数、TM 分数等评估指标上。
这标志着在 cryo-EM 密度图上的蛋白质结构预测领域取得了显著进展,能够生成更为精确和完整的结构模型。
图示:对 CryoStruct 和 Phenix 针对 128 个测试冷冻电子显微镜图构建的原子模型从六个指标进行比较分析。(来源:论文)
然而,尽管 Cryo2Struct 能在局部区域实现高精度建模,构建覆盖大型蛋白质结构大部分区域的高精度模型仍具挑战性,体现在较低的全球 TM 分数和 Cα 序列匹配分数上。
这主要是因为不仅需要正确识别所有 Cα 原子,还需要准确地将它们链接成肽链并分配正确的氨基酸类型,而这在面对 cryo-EM 密度图中的缺失或噪声值时异常困难。
为了提升从 cryo-EM 密度图构建的结构模型的 TM 分数和 Cα 序列匹配分数,未来的研究方向包括:
随着更多高质量 cryo-EM 数据的积累,Cryo2Struct 有望通过整合多种信息源进一步提升其建模能力,为生物医学研究提供强大支持。
论文链接:https://www.nature.com/articles/s41467-024-49647-6