编辑 | 绿萝
单细胞 RNA 测序 (scRNA-seq) 技术为推断细胞特异性基因调控网络 (GRN) 提供了机会,这是系统生物学中的一个重要挑战。尽管已经开发了许多方法来从 scRNA-seq 数据中推断 GRN,但处理细胞异质性仍然是一个挑战。
为了应对这一挑战,中国科学院和中国科学院大学的研究团队开发了一种可解释的基于 Transformer 的方法,即 STGRNS,用于从 scRNA-seq 数据中推断 GRN。结果表明,STGRNS 优于其它比较方法。此外,STGRNS 比「黑盒」深度学习方法更具可解释性。
该研究以「STGRNS: an interpretable transformer-based method for inferring gene regulatory networks from single-cell transcriptomic data」为题,于 2023 年 4 月 2 日发布在《Bioinformatics》上。
从 scRNA-seq 数据中推断 GRN
scRNA-seq 技术为了解单细胞分辨率的调控机制提供了机会。随着 scRNA-seq 技术的突破,一些分析工具被开发出来并应用于 scRNA-seq 数据的研究,这些工具大多侧重于细胞异质性的研究。
GRN 构成了细胞系统调控机制的重要蓝图,在生物学研究中发挥着关键作用。因此,必须开发一种精确的工具来从 scRNA-seq 数据中推断 GRN。
一般来说,基于深度学习方法从 scRNA-Seq 数据推断 GRN 的工作流程包括两个主要步骤,即基因对转换为图像数据,以及使用卷积神经网络(CNN)模型将生成的图像数据分类为交互或无交互类别。
基于 CNN 模型的方法进行 GRN 重建存在一定的局限性。首先,图像数据的生成不仅会产生意想不到的噪声,还会隐藏某些原始数据特征。其次,此过程非常耗时,并且由于它改变了 scRNA-seq 数据的格式,因此无法完全阐明这些利用 CNN 的计算方法所预测的结果。
用于推断 GRN 的监督方法有两种不同的训练策略。第一种策略是根据数据集大小将基准数据集划分为训练数据集、验证数据集和测试数据集,然后进行留一法交叉验证。第二种策略是根据基准数据集中转录因子 (TF) 的数量将它们分成 3-fold,并采用 3 折交叉验证。这意味着与特定 TF 相关的所有样本都用于训练或仅用于测试数据集。
图示:STGRNS 的工作流程。(来源:论文)
一种基于 Transformer 的监督方法:STGRNS
在 STGRNS 中,提出了基因表达 motif (GEM) ,将每个基因对转换为可作为输入提供给 Transformer 编码器架构的形式。无论数据是静态的、伪时间的还是时间序列的,STGRNS 都可以根据已知的基因之间的关系准确地推断出 GRN。
STGRNS 的结构包括四个不同的模块,即 GEM 模块、位置编码层、Transformer 编码器和分类层。GEM 模块负责将基因对重新配置为可用作 Transformer 编码器输入的格式。位置编码层用于捕获位置或时间信息。Transformer编码器用于计算不同子向量的相关性。它更关注关键的子向量。分类层用于产生最终的分类输出。
图示:STGRNS 的整体架构。(来源:论文)
为了评估 STGRNS 的性能,研究人员将其与其它最先进的工具在涉及不同物种、谱系、网络类型和网络规模的 48 个基准数据集上(包括 21 个静态和 27 个时间序列 scRNAseq 数据集)进行比较。
图示:STGRNS 与其他方法的比较以及 STGRNS 在 GRN 重建任务上的解释。(来源:论文)
图示:STGRNS 与其他方法的比较以及 STGRNS 在 TF 基因预测任务中的解释。(来源:论文)
在 GRN 重建和 TF 基因预测任务上,STGRNS 始终优于三种广泛使用的监督模型(CNNC、DGRNS 和 TDL)以及四种无监督方法(PIDC、LEAP、SINGE 和 DeepSEM)。
与专门为时间序列数据量身定制的 TDL 方法相比,STGRNS 还可以在四个不同的时间序列数据集中实现卓越的性能。
图示:参数敏感性分析,STGRNS 对各种参数都很稳健。(来源:论文)
STGRNS 在 TF 基因预测任务上具有一定的可迁移性。具体来说,STGRNS 可以部分解决与已知基因对的有限信息相关的挑战。此外,对训练样本和预测样本的分析可以深入了解 STGRNS 从已知基因对中学习的规则,从而提高 STGRNS 的可靠性和可信度。更重要的是,STGRNS 对超参数具有稳健性,这确保了该算法可以在更广泛的数据集上取得令人满意的性能。
所有结果表明,STGRNS 作为一种基于深度学习的方法优于其他方法。更重要的是,与其他基于深度学习的「黑匣子」方法不同,STGRNS 更可靠并且可以解释预测。
STGRNS 的优势与局限
STGRNS 在上述任务中的出色表现可归因于其技术优势。
- 首先,STGRNS 通过利用 Transformer 从其他基于深度学习的 GRN 重建方法中脱颖而出。STGRNS 采用的注意机制基于自我注意机制,使 STGRNS 能够专注于基因对中不同的子向量,并计算每个子向量的表示。
- 其次,STGRNS 使用 GEM 将基因对转换为连续的子向量,与其他方法相比,这是一种更耗时但更有效的方法。正是 GEM 和注意机制的整合,使 STGRNS 能够从 scRNA-Seq 数据中准确推断出 GRN。
尽管取得了这些成功的结果,STGRNS 仍有几个方面可以改进。
- 当标记数据不足时,监督算法无法达到完美性能是监督算法的普遍问题。元学习、迁移学习和 few-shot learning 常用于解决标记数据少的问题,因此它们有望在GRN 重建中克服这一问题。
- 当前的研究领域正在迅速扩大,研究人员计划通过整合多种资源来增强和扩展 STGRNS,例如 scATAC-seq 和空间转录组学,这将使 STGRNS 能够从这些数据集中准确地推断出 GRN。
- 此外,开发基于 Transformer 的模型,以解决 scRNA-seq 数据分析中的各种挑战,包括细胞聚类、细胞分类和细胞拟时序分析。
论文链接:https://doi.org/10.1093/bioinformatics/btad165