全基因组关联研究 (Genome-Wide Association Study,GWAS)是了解遗传变异和性状之间关系的一个关键方法。GWAS 结果可用于通过识别与感兴趣的疾病密切相关的基因来识别和确定潜在治疗目标的优先级,还可用于建立多基因风险评分(Polygenic Risk Score, PRS),根据个体中存在的变异的综合影响预测疾病倾向。准确测量个体的特征(称为表型)对 GWAS 至关重要,但专家标记可能成本高昂、耗时且可变。随着深度学习的发展,从高维数据中提取医学相关特征成为可能。
该研究于6月1日以《基于大规模机器学习的表型显著改善了视神经头形态的基因组发现》「Large-scale machine learning-based phenotyping signifificantly improves genomic discovery for optic nerve head morphology」为题发表在《美国人类遗传学》(American Journal of Human Genetics)杂志上。
GWAS是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因。
青光眼是一种由渐进性视网膜神经节细胞变性引起的视神经病变,是全球不可逆失明的主要原因,影响着全球超过 8000 万人。此外,青光眼是最具遗传性的常见人类疾病之一,遗传性估计为 70%。
识别与眼部解剖特征相关的遗传变异
先前的研究表明,ML 模型可以识别眼部疾病、皮肤疾病和异常乳房 X 光检查结果,准确度接近或超过领域专家的最新方法。因为识别疾病是表型分析的一个子集,谷歌健康的研究人员推断 ML 模型可以广泛用于提高 GWAS 表型分析的速度和质量。
现在,研究人员提出训练 ML 模型以自动对大型队列进行表型以进行基因组发现。提出的范式有两个阶段:在模型训练阶段,使用专家标记样本数据库(不需要基因组数据)来训练和验证表型预测模型;在模型应用阶段,模型应用于生物库数据以预测感兴趣的表型,然后分析基因组关联。这种范式有四个优点:
模型应用具有可扩展性和高效性。
单个模型可以同时预测多个表型。
该模型可以回顾性地应用于现有数据,从而产生新的表型或更准确的对现有表型的预测。
可以整合多条证据来预测单个表型,如果手动执行,这将非常昂贵。
研究人员选择了一个模型,该模型使用眼底图像来准确预测患者是否应该转诊进行青光眼评估。该模型使用眼底图像来预测视盘(视神经连接到视网膜的区域)和视杯(视盘中心的白色区域)的直径。这两个解剖特征的直径比——垂直杯盘比(vertical cup-to-disc ratio,VCDR),是青光眼的重要内表型。
具体步骤:研究人员使用 81,830 个非UKB、眼科医生标记的眼底图像开发了一个 ML 模型,预测图像分级、VCDR 和可参考的青光眼风险。使用该模型从 175,337 张眼底图像中预测了 65,680 名欧洲血统的 UKB 参与者的 VCDR。然后,对基于 ML 的 VCDR 表型(以下称为基于 ML 的 GWAS)进行了 GWAS,并将结果与之前的 VCDR GWAS 进行了比较,包括最近的 VCDR GWAS 使用来自专家标记的 UKB 眼底图像的表型。研究表明基于 ML 的表型比专家表型 VCDR 测量更准确,且更有效地获得,识别与已知 VCDR 生物学有可能联系的新遗传关联,并产生更准确的多基因风险评分来预测独立人群中的 VCDR。
基于 ML 的 GWAS 发现了 93 个新位点
基于 ML 的 GWAS 确定了 156 个与 VCDR 相关的不同基因组区域。研究人员将这些结果与同一UKB的另一组进行的 VCDR GWAS 数据(2020年,Craig 等人将所有图像标记为VCDR)进行了比较。基于 ML 的 GWAS 复制了 Craig 等人发现的 65 个关联中的 62 个,这表明该模型准确地预测了 UKB 图像中的 VCDR。此外,基于 ML 的 GWAS 发现了 93 个新的关联。
本研究中发现的几个VCDR相关基因位点与眼压(intraocular pressure,IOP)相关。且发现的几个 VCDR 相关基因位点包含参与神经元和突触生物学的基因,因此可能是通过对视网膜和视神经的直接影响而不是通过 IOP 来影响 VCDR。
新的 VCDR 相关基因位点上的几个基因含有导致严重孟德尔眼科疾病的突变。首次报告了这些基因的常见变异,这些变异与群体水平的 VCDR 变异相关。三个新基因位点位于 ADAMTSL3 (rs59199978)、PITX2 (rs2661764) 和 FOXC1 (rs2745572),所有这些都与综合征性眼前节发育不全有关,进而导致眼压升高和继发性青光眼。
基于 ML 的 GWAS 改进了多基因模型预测
为了验证在基于 ML 的 GWAS 中发现的新关联具有生物学相关性,研究人员使用 Craig 等人开发的独立PRS 和基于 ML 的 GWAS 结果,并测试了它们在 UKB 的一个子集以及一个完全独立的队列(EPIC-Norfolk)中预测人类专家标记的 VCDR 的能力。在两个数据集中,基于 ML 的 GWAS 开发的 PRS 比专家标记方法构建的 PRS 具有更强的预测能力,表明基于 ML 的方法发现的新关联影响 VCDR 生物学,并表明该模型表型准确性(即更准确的 VCDR 测量)的提高可转化为更强大的GWAS。
然后使用来自 UKB 的基于 ML 的 VCDR 值来训练弹性网络模型。弹性网络模型分别解释了 UKB 和 EPIC-Norfolk 集合中总 VCDR 变化的 14.2% 和 10.6%。弹性网络模型有更明显的改进,但基于 ML 的模型仍然明显优于它。
作为第二个验证,「因为 VCDR 与青光眼密切相关,我们还调查了基于 ML 的 PRS 是否与自我报告患有青光眼或有医疗程序代码提示患有青光眼或青光眼治疗的个体相关。我们发现使用我们的模型预测确定的 VCDR 的 PRS 也可以预测个体有青光眼迹象的概率。在该队列中,PRS 2.5 或更多标准差高于平均值的个体患青光眼的可能性是平均水平的 3 倍以上。我们还观察到,基于 ML 的表型的 VCDR PRS 比从广泛的手动表型产生的 VCDR PRS 更能预测青光眼。」
为了进一步评估基于 ML 的弹性网络 VCDR PRS 对青光眼预测的效用,研究人员对 EPIC-Norfolk 参与者(n=5,868)的原发性开角型青光眼 (POAG) (175 例病例和 5,693 例对照)的状态进行了分类。并将 POAG 病例细分为 HTG(98 例)和 NTG(77 例)。鉴于 VCDR PRS 丰富了与神经元发育和功能相关的变异,假设 PRS 与 NTG 特别相关。以年龄、性别和基于 ML 的弹性网络 VCDR PRS 作为预测因子来拟合逻辑回归模型来预测 POAG 状态。
在 EPIC-Norfolk 中,基于 ML 的弹性网络 VCDR PRS 与 POAG,尤其是 NTG 显著相关。
模型训练代码和详细文档
研究人员在 GitHub 的 Genomics Research 存储库中发布了模型训练代码和详细文档。
此存储库中存在三个功能:
模型训练
模型推理
数据分析和图形生成
研究人员表示:「ML 模型可用于快速对 GWAS 的大型队列进行表型分析,并且这些模型可以提高此类研究的统计功效。虽然这些例子显示的是视网膜成像预测的眼睛特征,但我们期待探索这个概念如何普遍适用于其他疾病和数据类型。」