Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

GPDRP:基于图 Transformer 和基因通路的药物反应预测多模态框架

编辑 | X

在计算个性化医学领域,药物反应预测(DRP)是一个关键问题。但是,现有的研究通常将药物描述为字符串,这种表示与分子的自然描述不符。此外,忽略了基因通路(pathway)特异性组合含义。

近日,来自河南科技大学的研究人员提出了基于药物图和基因通路的药物反应预测方法(GPDRP),这是一种新的多模态深度学习模型,用于预测基于药物分子图和基因途径活性的药物反应。

在 GPDRP 中,药物由分子图表示,而细胞系则以基因途径活性评分描述。该模型使用具有图 Transformer 和深度神经网络图神经网络(GNN)分别学习这两类数据。随后通过完全连接的层进行预测。

研究结果表明,基于图 Transformer 的模型可提供出色的性能。研究人员将 GPDRP 应用于数百个癌细胞系的大量 RNA 序列数据上,并且表现优于一些最近发表的模型。此外,GPDRP 通过对未知药物细胞系对和异种移植物的预测证明了其普遍性和适用性。这强调了通过结合基因途径实现的可解释性。

该研究以「GPDRP: a multimodal framework for drug response prediction with graph transformer」为题,于 2023 年 12 月 17 日发布在《BMC Bioinformatics》上。

图片

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-023-05618-0

药物反应预测的进展及挑战

药物反应预测(Drug response prediction,DRP)在癌症治疗中至关重要,并已成为个性化医学研究的重要课题。准确预测治疗反应有助于为患者设计更有效的治疗计划,并为新型疾病抑制药物的开发提供有价值的见解。

随着高通量基因组学技术的快速发展,大规模的药物基因组学数据库逐渐积累。基于这些丰富的数据资源,众多研究人员建立了各种 DRP 模型来预测抗癌药物的反应。

尽管 DRP 研究取得了重大进展,但仍有一些问题值得考虑。例如,大多数研究将药物表示为字符串,这是一种不自然的分子表示方式,可能会导致结构信息的丢失。此外,基因的特定通路组合含义(或基因集)被忽略,基因表达水平被视为自变量,这可能过度强调机器学习技术。

GPDRP:一种新颖的多模态深度学习架构

为了解决这些问题,研究人员提出了 GPDRP,一种新颖的多模态深度学习架构,可以通过将药物建模为分子图来预测细胞系的药物反应。此外,Graph Transformer 与图同构网络(Graph Isomorphism Network,GIN)相结合,提高了更精确的 DRP 的能力。

GPDRP 的主要贡献包括:

1、将药物分子图与基因通路活性评分相结合,利用两种类型数据的优势来增强其模型的预测能力。

2、GPDRP  是一种新颖的 DRP 多模态框架,它利用图卷积网络与图 Transformer 和深度神经网络相结合。GPDRP 的性能通过 CCLE/GDSC 数据集进行了演示,它的性能优于最近发布的两个模型 Precily(使用 SMILES 字符串表示药物分子) 和 GraTransDRP(通过 one-hot encoding 编码细胞系的基因组和表观基因组特征)。

3、GPDRP 展示了预测未知药物细胞系对的潜力。利用该模型对 GDSC 中缺失的配对进行了预测。

4、GPDRP 具有良好的适用性。应用它来预测 LNCaP 异种移植数据集,并根据基因活性通路评分提供解释。

预测未知药物细胞系对的反应

为了评估 GPDRP 的预测准确性,研究人员使用 CCLE/GDSC 数据集训练模型,并采用与 Precily 中相同的数据分割策略。测试结果显示,最佳模型的 PCC 值为 0.8833,RMSE 值为 0.0321。

然后将 GPDRP 与一些最近发布的模型进行了比较。显然,对于几乎所有图卷积网络,GPDRP 都优于 Precily 和 GraTransDRP。在三种 GNN 模型中,GIN 模型表现最好,PCC 为 0.8827。因此,研究将 GIN 与 Graph Transformer 结合起来,得到最佳的 PCC 为 0.8833,最佳的 RMSE 为 0.0321。

图片

图 1:性能比较。(来源:论文)

接着,研究人员使用最佳模型 GPDRP_GIN_TRANSFORMER 来预测处理后的 15,094 个缺乏响应值的药物细胞系对的响应。

图片

图 2:未知响应对的预测 LN IC50 值的箱线图。(来源:论文)

GPDRP 在预测未知药物细胞系对的药物反应方面表现出了卓越的性能,从而证实了 GPDRP 的准确性和实用性。这使我们能够更好地了解药物对特定细胞系的影响,为药物开发和制定个性化治疗策略提供强有力的支持。

为了预测药物反应,研究人员使用了在 CCLE/GDSC 数据集上训练的 GPDRP_GIN_TRANSFORMER 模型。通过将该模型应用于 54 个样本,获得了 173 种药物对 LNCaP 异种移植肿瘤样本的预测敏感性,如图 3 所示。

图片

图 3:LNCaP 异种移植的预测和分析。(来源:论文)

54 个样本分为三个主要 clusters。将预测值最高的样本总结为 Cluster 1。该 cluster 表现出最强的耐药性,表明药物敏感性最低。相反,将预测值最低的样本总结为 Cluster 3,表明对 173 种药物的敏感性最高,并且主要由经过 ENZ 处理的肿瘤样本组成(总共 12 个样本,其中 7 个 ENZS 和 3 个 ENZR)。值得注意的是,ENZR 样本分布在所有三个 cluster 中,表明治疗结果存在异质性,并暗示 ENZ 耐药可能涉及不同的潜在机制,可能涉及与肿瘤微环境中基质成分的相互作用。

图片

图 4:GPDRP 的预测分析工作流程图。(来源:论文)

局限性及未来研究

GPDRP 的局限性之一是模型的可解释性。此外,研究仅关注细胞系,当涉及到基于药物化合物的数据分割时,该模型未能达到预期结果。这可能归因于药物化合物的巨大化学空间

未来,研究人员将将重点研究模型的可解释性,更加关注基于药物的研究,以增强模型的可解释性,提高其预测药物反应的有效性。此外,RGCN 和 RGAT 可以增强模型的预测能力,之后将探索它们的使用以实现更好的预测性能。

理论神经网络深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

暂无评论
暂无评论~