
编辑丨&
癌症是一种多种多样的肿瘤疾病,其中突变和其他改变会驱动表型。原则上,通过针对特定偏差进行精准医疗是可以实现安全有效的癌症治疗。
然而在实践中,过于复杂的环境与实际情况阻碍了医疗人员在基因改变和疾病表型之间建立因果关系的能力。不过,目前已经发现了突变、耐药机制、反馈回路等很难利用实验进行研究的复杂相互作用可以利用计算方法来解决。
虽然到目前为止,系统范围的细胞计算机模型一直受到实验和计算限制的阻碍,深度学习却可以弥补实现与计算限制上的缺陷。
美国麻省理工学院的研究者们使用了一种基于深度学习(DL)算法,结合人工神经网络(ANN)的生存预测模型,其组件可用于捕获肿瘤动力学的特定方面。
该研究以「Towards an interpretable deep learning model of cancer」为题,于 2025 年 2 月 14 日刊登于《NPJ Prncision Oncology》。

预测性深度学习模型
长期以来,基于网络的方法在研究癌症方面的效用一直受到重视。这些方法已被用于绘制细胞的功能组织与癌症数据的因果整合和机制假设生成,并表征对药物治疗的反应及其作用机制。
DL 的灵活性和规模使其成为拟合复杂和异质分子数据模型的有前途的候选者。特别是对于癌症,DL 已被用于预测对治疗的反应,以及高性能扰动后的肿瘤表型。
虽然 DL 模型擅长预测,但它们与它们所近似的潜在机制的关系通常是不透明的。故而,为了应对这种情况,模型的开发应当植根于一个明确的过程,尤其是具有特性的影响目标。
这样的模型至少应该涵盖信号转导、代谢和基因调控,包括转录、翻译和降解过程。虽然这项调查涉及混合不同模型类型的框架,但使用 DL 的集成模型将有利于使用不同类型的实验数据自动参数化。

对于信号传导,研究者们开发了一个模型,可以从配体或药物刺激中预测转录因子(TF)活性或细胞活力。同样的,针对代谢与基因调控,也有相应的模型被开发用以重建过程。
饱和知识与积累的数据
现如今,积累的分子网络数据已经达到了基因组规模,足以支撑起创建全基因组模型的需要。实验性的进步与计算技术发展提升了具有数千种分子相互作用网络的管理能力。
如此庞大数量的分子间相互关系对哪些细胞状态是可能的施加了结构约束,可以利用这种类型的知识,重建用于新陈代谢、信号转导和基因调控的大型网络。
通过分子条形码(例如核苷酸条形码)在单细胞水平上分析样品,能够表征异质性群体中的细胞群,从而可以详细表征不同器官中的细胞类型,这对于临床肿瘤样品特别有用。
到目前为止,整合来自不同研究、数据模式和条件的数据具有挑战性。这部分是由于缺乏统一的分析框架,以及处理数据缺失的样本和受试者的困难。

图示:模型属性(图源:论文)
分子间的相互作用可以用子函数来表示,这些子函数近似于所涉及的分子量之间的输入-输出关系。这种模块化结构具有明确定义的过程,作用于对应于可观察分子的状态变量,将确保模型的可解释性。
与许多其他物理系统一样,可以假设这些分子功能并不直接取决于它们出现在哪种细胞类型或细胞区室中,即它们是空间不变的;也可以假设只有分子量,而不是函数本身,会随着时间的推移而变化,即它们是时不变的。
对定义的分子定量进行作的统一模型允许直接映射输入和提取输出。由于已知细胞过程在不同的时间尺度上运行,因此有时需要将较慢的过程分离到可以独立模拟的单独条件中。

图示:积分模型的应用(图源:论文)
该模型的目的是预测未观察到的细胞状态和未经测试的扰动对药物开发的影响。为了确认模型推断到看不见的扰动的能力,应通过在训练期间保持与每个训练折叠中使用的扰动不同的扰动来利用交叉折叠验证。
从长远来看,可以设想神经网络也可以对实验设置进行建模,这样需要的预处理就会少得多。由于测序深度的差异以及 RNA 提取、蛋白质组学方法等实验方案的差异,预处理并不简单。但模型仍可能有助于提供生物标志物,将患者分层到可以进行临床测试的不同治疗方案中。
挑战和限制
对于基于先验知识的模型,网络的准确性和完整性非常重要。如果证据可疑,则可能需要对发现对模型预测具有高度重要性的交互进行批判性检查和整理,并结合验证实验,以减轻先验知识中错误注释的限制。
缺失值和其他不规则性经常出现在生物数据中,并对生成的模型产生影响。目前除了通过对实验设备的差异或其他混杂变量进行建模来解释的方法外,使用半监督学习方法,以便在输出数据无法获得所有样本的情况下训练模型也同样是一种解决措施。
论文链接:https://www.nature.com/articles/s41698-025-00822-y