编辑 | 白菜叶
鸟枪法蛋白质组学(Shotgun proteomics)对于生物医学研究中的蛋白质鉴定和定量至关重要,但由于蛋白质之间共享大量肽,蛋白质亚型表征具有挑战性,阻碍了科学家对蛋白质亚型调控与疾病之间关联的理解。
南京中医药大学和贝勒医学院(Baylor College of Medicine)的研究人员使用计算机和实验数据系统地评估了基于鸟枪法蛋白质组学的蛋白质异构体表征的挑战和机遇,然后提出了 SEPepQuant,这是一种基于图论的方法,可最大化异构体表征。
使用一项诱导多能干细胞研究和两项人类肝细胞癌研究的已发表数据,该团队展示了 SEPepQuant 解决现有方法的关键局限性、提供更全面的异构体水平表征、识别数百个异构体水平调控事件以及促进简化的交叉研究比较的能力。该分析提供了确凿的证据来支持蛋白质亚型调节在正常和疾病过程中的广泛作用,并且 SEPepQuant 可在生物学和转化研究中进行广泛应用。
该研究以「SEPepQuant enhances the detection of possible isoform regulations in shotgun proteomics」为题,于 2023 年 9 月 19 日发布在《Nature Communications》。
前体信使 RNA (pre-mRNA) 的选择性剪接是一个重要的转录后过程,被认为是真核生物中细胞和功能复杂性增加的基础。这一过程受到高度调控,RNA 剪接失调与多种疾病有关,如视网膜和发育障碍、神经退行性疾病和癌症。基于高通量测序的转录组学研究表明,大多数人类蛋白质编码基因经过选择性剪接以产生多种 mRNA 亚型。基于质谱 (MS) 的鸟枪式蛋白质组学是生物样品中蛋白质鉴定和定量的主要方法,但由于数据分析的内在挑战,鸟枪式蛋白质组学研究提供的蛋白质亚型信息非常有限。事实上,转录亚型复杂性传播到蛋白质组的程度仍然存在争议,并且很大程度上缺乏对蛋白质亚型在正常和疾病生物学中的作用的系统研究。
鸟枪法蛋白质组学已成为生物医学研究中蛋白质鉴定和定量的重要工具。然而,基于鸟枪法蛋白质组学的蛋白质亚型鉴定和定量仍然是一个开放的挑战,阻碍了对蛋白质亚型调控及其在正常和疾病生物学中的作用的透彻理解。
在最新的研究中,南京中医药大学和贝勒医学院的研究人员使用来自一项已发表的诱导多能干细胞 (iPSC) 研究和两项已发表的人类肝细胞癌 (HCC) 研究的计算机消化数据和实验数据,系统地评估了基于鸟枪法蛋白质组学的蛋白质亚型表征的挑战和机遇。
为了应对蛋白质异构体表征的挑战并利用潜在的机会,该团队将肽-蛋白质关系的二分图表示扩展到三分图,以全面表示肽、蛋白质和基因关系。从三方图中,研究人员定义了一个新的量化单位,称为Structurally Equivalent PEPtides(SEPEPs)。这些 SEPEP 由肽顶点组成,这些顶点连接到图中完全相同的一组蛋白质顶点,因此在图中结构上是等效的。为了便于下游解释,研究人员根据 SEPEP 与三方图中的源蛋白质和基因的连接模式进一步将 SEPEP 分为五类。
图:在三个选定的数据集中进行 SEPEP 级质量控制和量化。(来源:论文)
引入 SEPEP 作为量化单位代表了一项重大创新。它与现有的定量方法有根本的不同,现有的定量方法采用简约的蛋白质组、单个基因、单个蛋白质或来自单个蛋白质的相关肽作为量化单位。虽然使用专门映射到单个蛋白质的肽来量化该特定蛋白质(如 PQPQ 和 PeCorA 中实施的那样)提供了准确的定量,但它排除了多个蛋白质共享的许多肽。另一方面,当采用简约的蛋白质组或基因作为定量单位时,从鸟枪法蛋白质组学数据中获得的亚型特异性信息通常会被抑制或丢失。
基于 SEPEP 研究人员开发了 SEPepQuant,一种基于图论的方法,在肽-蛋白质-基因三方图中使用结构等效的肽组,而不是蛋白质组或基因组,作为鸟枪法蛋白质组学中实现全面蛋白质亚型表征的鉴定和定量单元。在三个实验数据集中,与基于简约的蛋白质推断相比,SEPepQuant 识别出的具有多个量化单位的基因多了 5.8-33.8 倍。
图:SEPepQuant 解决了基于简约的方法的主要局限性。(来源:论文)
对于具有多个 SEPEP 的基因,35.1-79.8% 的基因至少有一个 SEPEP,其与相应基因丰度的相关性低于 0.5,表明存在广泛的异构体特异性调控。事实上,基于 SEPepQuant 定量结果的分析揭示了心肌细胞分化过程中超过 100 个具有蛋白质同工型水平调节的基因,以及数百个与肝癌发展和预后显著相关的蛋白质同工型水平调节事件。
基于简约的蛋白质推断在蛋白质组学研究的早期阶段被引入,从而解决鸟枪法蛋白质组学研究中过多报告已识别蛋白质数量的问题,此后它已成为该领域的主导方法。然而,这种方法对蛋白质定量的影响尚未得到正式评估。研究人员在这项研究中分析揭示了与基于简约的方法相关的几个关键局限性,包括忽略蛋白质异构体和没有唯一识别肽的基因,通过简单地将共享肽分配给具有最大数量的已识别肽的异构体来对蛋白质异构体进行错误或不准确的定量,由于不同研究中肽检测的微小变化导致不同的报告异构体选择,因此使交叉研究比较变得复杂。研究人员证明 SEPepQuant 能够解决这些限制,从而对蛋白质亚型进行更全面、更准确的分析。
为了减少简并肽的数量,常用的策略是利用 UniProt 规范数据库。然而,由于其约 20,000 个蛋白质的范围有限,该数据库仅包含大多数基因的单个规范序列,使其不适合研究蛋白质亚型调控。在这项研究中,研究人员试图通过使用包含策划蛋白质(NP 和 YP)和预测蛋白质(XP)的 RefSeq 数据库来促进对蛋白质亚型的全面探索,总共产生了 140,000 个条目。当 SEPEP 同时包含策划和预测的蛋白质时,在进一步研究中重点关注策划的蛋白质是有意义的。
然而,当 SEPEP 仅包含预测的蛋白质时,它为预测提供了直接的实验证据。选择更保守的蛋白质数据库,例如专门由精选蛋白质组成的数据库,可能会将某些较高类别的 SEPEP 重新分类为较低类别。但是,这种方法可能会忽视涉及预测亚型的调控机制。或者,当匹配的 RNASeq 数据可用时,利用源自此类数据的定制蛋白质数据库代表了最佳选择。值得注意的是,SEPepQuant 还可以与定制数据库一起使用。
SEPepQuant 从 iPSC 和肝癌数据集中识别出数百个蛋白质同工型水平调控事件,强调了蛋白质同工型水平调控在正常和疾病过程中的广泛影响。值得注意的是,与正常样本相比,18 个基因在肝脏肿瘤中的表达显著增加,并且在 SEPEP 水平上与不良预后显著相关,但在基因水平上则不然。
图:SEPepQuant 在 iPSC 数据集上的应用。(来源:论文)
其中,SLK 编码一种促进细胞凋亡的激酶。SLK 的促肿瘤 SEPEP 是一种完全有区别的 SEPEP,因此促肿瘤效应可归因于相关的蛋白亚型 NP_001291672.1。与较长的 SLK 同工型 NP_055535.2 相比,这种短同工型具有跳过的外显子,该外显子编码介导同源二聚化以增强 SLK 活性的卷曲螺旋结构域的一部分。因此,这种外显子跳跃可能导致 SLK 活性降低和细胞凋亡减少,从而促进肿瘤进展。
对黑色素瘤肿瘤 RNASeq 数据的分析表明,与原发性肿瘤相比,转移性肿瘤中长亚型的表达减少,而短亚型的表达增加,这表明外显子跳跃在促进转移中发挥作用。
转铁蛋白是另一种被发现与 SEPEP 水平的不良预后相关的基因,但与基因水平无关。这种促肿瘤 SEPEP 也是与转铁蛋白基因最长同种型 NP_001054.2 相关的完全辨别性 SEPEP。转铁蛋白主要在肝脏合成并分泌到血清中,在血清中的半衰期为八天。该异构体独特的 N 端序列和蛋白质的长半衰期使其成为肝癌预后血清生物标志物的有希望的候选者,需要进一步研究。
总之,该团队的分析提供了强有力的证据来支持蛋白质亚型调节在正常和疾病过程中的关键和广泛作用,并且 SEPepQuant 预计将在生物和转化研究中广泛应用,从而促进科学发现。
论文链接:https://www.nature.com/articles/s41467-023-41558-2