编辑 | 萝卜皮
在人类基因组中所观察到的绝大多数错义突变可能具有未知的临床意义。
Google DeepMind 团队提出了 AlphaMissense,它是 AlphaFold 的一种改进衍生工具,在人类和灵长类动物突变群体频率数据库上进行了微调,从而用于预测错义突变(missense variant,missense mutation )的致病性。
通过结合结构背景和进化保护,该模型在广泛的遗传和实验基准上取得了 SOTA 的结果,并且,所有这些都无需对这些数据进行明确的训练。
基因的平均致病性评分也可以预测其细胞必需性,能够识别现有统计方法无法检测到的短必需基因。作为社区的资源,该团队提供了所有可能的人类单氨基酸取代的预测数据库,并将 89% 的错义突变分类为可能良性或可能致病。
该研究的最新进展以「Accurate proteome-wide missense variant effect prediction with AlphaMissense」为题,于 2023 年 9 月 19 日发布在《Science》。
什么是错义突变?
错义突变是 DNA 中的碱基替换,导致蛋白质内产生不同的氨基酸。如果将 DNA 视为一种语言,那么交换一个字母就可以改变一个单词并完全改变一个句子的含义。在这种情况下,替换会改变翻译的氨基酸,这可能会影响蛋白质的功能。
每个人平均携带超过 9,000 个错义突变。这些突变大多数是良性的,对生活几乎没有影响;但也有少数是具有致病性的,可以严重破坏蛋白质功能。错义突变可用于罕见遗传病的诊断,其中少数甚至单个错义突变可能直接导致疾病。它们对于研究复杂疾病也非常重要,例如 Ⅱ 型糖尿病,这种疾病可能是由许多不同类型的基因变化组合引起的。
对错义突变进行分类是了解哪些蛋白质变化可能引起疾病的重要一步。在人类基因组中已发现的超过 400 万种错义突变中,只有 2% 被专家注释为致病性或良性;这些被注释过的突变大约占所有 7100 万种可能错义突变的 0.1%。其他突变则被认为是「意义不明的突变」,因为缺乏关于其影响的实验或临床数据。借助 AlphaMissense,研究人员通过使用阈值对 89% 的突变进行分类,对已知疾病突变的数据库产生了 90% 的精确度,从而获得了迄今为止最清晰的图片。
致病性或良性:AlphaMissense 如何对突变进行分类
基于蛋白质结构预测模型 AlphaFold 所开发的 AlphaMissense,可以预测改变蛋白质单个氨基酸的错义突变的致病性。
为了训练 AlphaMissense,DeepMind 团队在标签上对 AlphaFold 进行了微调,用于区分人类和密切相关的灵长类动物群体中发现的突变。它所遵循的原则是,常见的突变被视为良性,从未见过的突变被视为致病。
DeepMind 研究副总裁兼研究作者 Pushmeet Kohli 在新闻发布会上表示:AlphaMissense 并没有确定突变的结构影响(生物学中的一个公开挑战),而是利用 AlphaFold 对结构的「直觉」来识别蛋白质中可能发生致病突变的位置。
所以,AlphaMissense 不能预测突变后对蛋白质稳定性的其他影响。相反,它利用相关蛋白质序列和变体结构背景的数据库来产生 0 到 1 之间的分数,大致评定变体致病的可能性。连续评分允许使用者选择符合其准确性要求的阈值,将突变分类为致病性或良性。
AlphaMissense 还整合了一种受 ChatGPT 等大型语言模型启发的神经网络,该模型已接受数百万个蛋白质序列而不是单词的训练,称为蛋白质语言模型。事实证明,它们擅长预测蛋白质结构和设计新蛋白质。
共同领导这项研究的 DeepMind 研究科学家 Ziga Avsec 表示,它们对于突变预测是有现实意义的,因为它们已经了解了哪些序列是合理的,哪些是不合理的。
图:AlphaMissense 如何对人类错义变体进行分类。(来源:Deepmind网站)
AlphaMissense 在广泛的遗传和实验基准上实现了最先进的预测,所有这些都无需对此类数据进行明确的训练。当用于对 ClinVar(人类突变与疾病之间关系的公共数据档案)的突变进行分类时,该工具优于其他计算方法。它还擅长识别实验室实验中所发现的问题突变,同时测量数千个突变的影响。
图:AlphaMissense 在预测错义突变效应方面优于其他计算方法。(来源:Deepmind网站)
错义突变目录
使用 AlphaMissense,该团队得到了一份人类基因组中每一种可能的错义突变的目录,确定 57% 可能是良性的,32% 可能导致疾病。
DeepMind 已将 AlphaMissense 的预测免费提供给科学界。他们还与 EMBL-EBI 一起,通过 Ensembl Variant Effect Predictor 使预测目录对研究人员来说更易于使用。
除了错义突变查找表之外,该团队还分享了对 19,000 多种人类蛋白质中所有可能的 2.16 亿个单氨基酸序列替换的扩展预测。还包括了每个基因的平均预测,这类似于测量基因的进化约束——这表示某个基因对于生物体生存的重要性。
加速遗传疾病研究
斯德哥尔摩大学计算生物学家 Arne Eloffson 表示,AlphaMissense 相对于现有的预测突变影响的工具来说是一个进步,「但并不是巨大的飞跃」。
英国爱丁堡 MRC 人类遗传学单位的计算生物学家 Joseph Marsh 同意 Eloffson 的看法,它的影响不会像 AlphaFold 那样显著,AlphaFold 开创了计算生物学的新时代。「也是兴奋的。这可能是我们目前拥有的最好的预测器。但这会是两三年后最好的预测吗?很有可能不会。」
Marsh 表示,目前计算预测在诊断遗传疾病方面发挥的作用很小,医生团体的建议称,这些工具应该只提供将突变与疾病联系起来的支持证据。Avsec 表示,与之前的方法相比,AlphaMissense 自信地对更大比例的错义突变进行了分类。「随着这些模型变得比我想象的更好,人们会更倾向于信任它们。」
佐治亚州亚特兰大埃默里大学的生物信息学家 Yana Bromberg 强调,诸如 AlphaMissense 之类的工具在应用于现实世界之前,必须使用良好的性能指标进行严格评估。
例如,一项名为基因组解释批判性评估(CAGI)的活动多年来一直根据尚未发布的实验数据对此类预测方法的性能进行基准测试。Bromberg 补充道:「想到医生做出预测并执行预测,就好像它是真实的一样,而没有经过 CAGI 等实体的评估,这是我最糟糕的噩梦。」
对此,DeepMind 团队表示,他们一直与 Genomics England 合作,探索这些预测如何帮助研究罕见疾病的遗传学。Genomics England 将 AlphaMissense 的发现与之前与人类参与者汇总的变异致病性数据进行了交叉引用。Genomics England 的评估证实了 AlphaMissense 预测是准确且一致的,这相当于提供了另一个现实世界的基准。
总而言之,AlphaMissense 确实提供了一条研究疾病的重要路径,相信它的转化研究可以在人类医疗方面发挥更大的作用。
目录链接:https://zenodo.org/record/8208688
论文链接:https://www.science.org/doi/10.1126/science.adg7492
相关报道:
https://www.nature.com/articles/d41586-023-02943-5
https://www.deepmind.com/blog/alphamissense-catalogue-of-genetic-mutations-to-help-pinpoint-the-cause-of-diseases