Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

数据有限也能预测药物靶点,Geneformer显著改善基因网络校正疗法

编辑 | 萝卜皮

映射基因网络需要大量的转录组数据来了解基因之间的联系,这阻碍了在数据有限的环境中的发现,包括罕见疾病和影响临床无法接近的组织的疾病。

此外,迁移学习通过利用在大规模通用数据集上预训练的深度学习模型,可以对特定任务数据有限的大量下游任务进行微调,从而彻底改变了自然语言理解和计算机视觉等领域。

丹娜-法伯癌症研究所(Dana-Farber Cancer Institute)以及博德研究所(Broad Institute of MIT and Harvard)的研究人员开发了一个上下文感知、基于注意力的深度学习模型 Geneformer,该模型在约 3000 万个单细胞转录组的大规模语料库上进行了预训练,可以在网络生物学数据有限的情况下实现上下文特定的预测。

在预训练期间,Geneformer 获得了对网络动力学的基本理解,以完全自我监督的方式在模型的注意力权重中编码网络层次结构。

该研究以「Transfer learning enables predictions in network biology」为题,于 2023 年 5 月 31 日发布在《Nature》。

许多基因在激活时会引发一系列分子活动,从而触发其他基因提高或降低其活动。这些基因中有的反过来又会影响其他基因——或者反过来阻止第一个基因。因此,当科学家勾画出几十个相关基因之间的联系时,生成的网络图通常看起来像一张纠结的蜘蛛网。

如果仅以这种方式映射出少数基因是混乱的,那么试图了解人类基因组中所有 20,000 个基因之间的联系将是一项艰巨的挑战。但是,如此庞大的网络图谱可以让研究人员深入了解整个基因网络如何随疾病发生变化,以及如何逆转这些变化。

「如果一种药物靶向网络外围的基因,它可能会对细胞的功能产生很小的影响,或者只能控制疾病的症状。」论文第一作者 Christina Theodoris 说,「但通过恢复在网络中发挥核心作用的基因的正常水平,你可以治疗潜在的疾病过程并产生更大的影响。」

人工智能「迁移学习」

通常,为了绘制基因网络图,研究人员依赖于包含许多相似细胞的庞大数据集。他们使用人工智能系统的一个子集,称为机器学习平台,来计算数据中的模式。

然而,生物学中的标准机器学习模型经过训练只能完成一项任务。为了让模型完成不同的任务,它们必须从头开始重新训练新数据。问题是对于某些疾病,没有足够的现有数据来训练这些机器学习模型。

迁移学习的概念通过利用在大规模通用数据集上预训练的深度学习模型,彻底改变了自然语言理解和计算机视觉等领域,这些模型可以针对大量下游任务进行微调,这些任务的特定数据有限,单独使用时不足以产生有意义的预测。

自注意机制的出现通过生成上下文感知模型进一步改变了深度学习领域,这些模型能够关注大的输入空间,并学习在每个上下文中哪些元素最重要。基因调控网络架构高度依赖于上下文,而基于注意力的模型(称为 transformers)可能特别适合网络动态的特定上下文建模。

丹娜-法伯癌症研究所以及博德研究所的研究人员开发了一个上下文感知、基于注意力的深度学习模型 Geneformer,它在大规模转录组数据上进行了预训练,从而在数据有限的情况下进行预测。

「Geneformer 可以在许多生物学领域应用,包括发现可能的疾病药物靶点。」Theodoris 说,「这种方法将极大地提高我们在因有限数据阻碍进展的疾病中设计基因网络校正疗法的能力。」


图示:Geneformer 架构和迁移学习策略。(来源:论文)

研究人员组装了一个大型预训练语料库 Genecorpus-30M,其中包含 2990 万个来自公开数据的广泛组织的人类单细胞转录组。然后,他们使用自我监督的屏蔽学习目标在该语料库上对 Geneformer 进行了预训练,从而获得对网络动态的基本理解。经过预训练的 Geneformer 通过上下文感知的缺失计算方法,准确预测了剂量敏感的疾病基因及其下游目标。

此外,即使仅显示极少数相关数据示例,Geneformer 也能够做出准确的预测。

「这意味着 Geneformer 可用于对研究进展缓慢的疾病进行预测,因为我们无法获得足够大的数据集,例如罕见疾病和影响临床难以取样的组织的疾病。」Theodoris 说。

应用于心脏病

研究人员将 Geneformer 应用于心肌病的疾病建模,预测了候选治疗靶点,其实验抑制显著改善了基于诱导多能干细胞(iPSC)的疾病模型中的心肌细胞收缩。

「该模型预测了我们已经知道的对心脏病非常重要的基因,这一事实让我们更加相信它能够做出准确的预测。」Theodoris 说。

Geneformer 发现的其他潜在重要基因之前并未发现与心脏病相关,例如 TEAD4 基因。当研究人员在实验室中从心肌细胞中去除 TEAD4 时,这些细胞不再能够像健康细胞一样有力地搏动。

因此,Geneformer 利用迁移学习得出了一个新的结论:即使没有提供任何关于缺乏 TEAD4 的细胞的信息,它也正确地预测了 TEAD4 在心肌细胞功能中发挥的重要作用。

最后,该团队要求 Geneformer 预测应该针对哪些基因使患病的心肌细胞在基因网络水平上与健康细胞相似。当研究人员在受心肌病(一种心肌疾病)影响的细胞中测试两个提议的靶标时,他们确实发现使用 CRISPR 基因编辑技术去除预测的基因可以恢复患病心肌细胞的搏动能力。

「在了解正常基因网络是什么样子和患病基因网络是什么样子的过程中,Geneformer 能够弄清楚可以针对哪些特征在健康和患病状态之间进行切换。」Theodoris 说,「迁移学习方法使我们能够克服有限患者数据的挑战,以有效地识别可能的蛋白质,从而在患病细胞中进行药物靶向。」

「使用 Geneformer 的一个好处是能够预测哪些基因可以帮助细胞在健康和疾病状态之间切换。」该研究的主要参与者 Patrick Ellinor 说,「我们能够在 Broad Institute 实验室的心肌细胞中验证这些预测。」

研究人员计划扩大 Geneformer 分析的细胞数量和类型,从而不断提高其分析基因网络的能力。他们还将该模型开源,以便其他科学家可以使用它。

「使用标准方法,你必须为每个新应用程序从头开始重新训练模型。」Theodoris 说,「我们的方法真正令人兴奋的是,现在可以转移 Geneformer 关于基因网络的基础知识来回答许多生物学问题,我们期待看到其他人用它做什么。」

论文链接:https://www.nature.com/articles/s41586-023-06139-9

相关报道:

https://www.nature.com/articles/d41586-023-01504-0

https://medicalxpress.com/news/2023-05-artificial-intelligence-consequences-gene-modifications.html

理论
暂无评论
暂无评论~