Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

the-scientist.com来源

解码癌症,人工智能如何超越医生?

“我还能活多久?”这是每个癌症患者脑海中浮现的问题。然而,治疗他们的医生却无法给出一个明确的答案。

目前,医生们能做的是将患有类似癌症的患者分为几大类,然后假设他们会对疗法有相同的反应,并且具有类似的预后。然而,将患者分类的手段还十分粗糙,很多时候是基于医生的双眼。

病理学家们通常基于对组织切片的评估来预测患者的预后情况。他们会根据肿瘤的大小和特征来判断肿瘤的级别,然而病理学家们有时会出现分歧,而且肿瘤的级别并不是总能准确地预测患者的生存期。

图片来源:123RF当病理学家分析病理学图像时,只有60%的时候他们会达成一致。”斯坦福大学(Stanford University)基因组学和个体化医药中心主任Michael Snyder博士说。在2013年,他的研究团队开始探索人工智能(AI)能否让对癌症预后的预测更为准确

Snyder博士的研究生将组织学图像和病理学家作出的诊断输入到机器学习算法中,训练它将肺癌和正常组织区分开来,将两种不同的肺癌区分开来。然后,他将与这些图像相关的患者生存数据输入到系统中,训练AI找出生存数据与图像之间的关系。最后,他让机器学习算法分析从来没有见过的病理图像,然后向人工智能(AI)提出了“我还能活多久?”这个对癌症患者来说至关重要的问题。

他们的研究发现,AI能够通过分析图像,判断出特定患者的生存时间会比肺癌患者的平均值长还是短。病理学家们仍然难以作出这个看似简单的判断。这项研究发表在Nature Communications杂志上。

受到这一结果的鼓舞,Snyder博士的团队将肿瘤的转录组(transcriptome)信息也输入到机器学习系统中,将转录组信息与图像信息结合,AI能够更精确地预测患者的生存期,达到了超过80%的准确率

和Snyder博士一样,很多其它研究团队也认识到了AI在分析与癌症相关的医学图像和组学数据方面的潜力。虽然这些工具还未能进入诊所,但是基于AI的分析手段不但能够更快地作出更准确的诊断,而且能够找出最适合特定患者的抗癌疗法,甚至预测他们的生存时间

机器学习对肿瘤研究和治疗的影响(图片来源:参考资料[1])

输入:图像,输出:诊断

尽早诊断癌症和开始治疗是提高患者生存的关键。以宫颈癌为例,早期诊断能够将患者的5年生存率提高到90%以上。医生可以通过不同手段将癌前病变清除,然而一旦癌症发生转移,5年生存期率会下降到56%以下。

在发达国家,妇女通常定期接受巴氏涂片(Pap smears)筛查来发现异常宫颈细胞的存在。而在发展中国家,这类筛查仍然非常罕见。另一种更为简易的检测使用醋酸冲洗宫颈表面,然后观察宫颈中的白色区域,这可能是癌症的先兆。然而,“这种检测非常不准确。”美国国家癌症研究所(National Cancer Institute, NCI)的流行病学家Mark Schiffman博士说。这导致有的健康妇女会接受不必要的治疗,而且其它携带癌前病变的妇女却没有接受治疗。

▲Mark Schiffman博士(图片来源:NCI官网)Schiffman博士和其它研究团队一直在寻找一种让醋酸筛查更为精确的方法。他的研究团队积累了成千上万张宫颈照片,然而,对图片的分析却不能产生一种精确可靠的诊断方法。

在他濒临放弃的时候,比尔及梅琳达盖茨基金会(Bill & Melinda Gates Foundation)旗下的非营利机构向他伸出了援助之手。这家机构想使用机器学习来处理Schiffman博士收集的图像,看看计算机能否做出医生无法作出的诊断。

于是Schiffman博士和他们合作,使用一种称为卷积神经网络(convolutional neural network)的机器学习手段来分析宫颈照片。这一算法的目的是发现图像中帮助作出正确诊断的特征。

研究团队输入机器学习系统的数据库包括从9000名妇女中获得的宫颈图像,以及这些妇女接受更精准筛查检测的结果,和长达18年与癌前病变和癌症诊断相关的随访信息。他们用数据库中70%的信息来训练机器学习模型,然后使用剩下30%数据中的图像来检测AI的表现。

▲自动评估宫颈照片的AI算法构架(图片来源:参考资料[4])Schiffman博士不敢相信实验的结果!机器学习能够以91%的准确率将健康组织、癌前病变和癌症区分开来,而医生诊断的准确率只有69%

基于这项研究,Schiffman博士希望能够开发出一种经济简便的筛查方法,使用智能手机的照相机,与基于机器学习的图像分析结合,早期筛查宫颈癌

斯坦福大学的研究团队也在利用智能手机的照相机来诊断皮肤病变。他们构建了由13万张皮肤病变图像构成的数据库,然后训练卷积神经网络来区分良性肿块和3种不同的恶性皮肤病变。机器学习系统达到了91%的准确率,它的表现超过了大多数检查同样图片的皮肤科医生

输入:图像和组学数据,输出:生存预测

Snyder博士团队的研究已经表明,使用组学数据和图像数据相结合,能够进一步提高对肺癌患者生存期的判断。在他们进行的研究中,AI对转录组和蛋白质组学数据的分析发现了15个基因的表达水平能够以80%的准确性预测肿瘤的级别。这些基因在DNA复制,细胞周期调控,p53信号通路等和癌症生物学相关的生理过程中起到重要作用。

▲AI整合组学数据和图片信息,预测癌症患者生存期(图片来源:参考资料[3])受到Snyder博士团队研究的启发,纽约大学医学院的研究团队探索了肺癌图像和肺癌基因特征之间的关系。在经过1634张健康或肺癌组织切片的训练后,机器学习系统能够以97%的准确率将腺癌和鳞状细胞癌区别开。然后,研究团队将肺腺癌中10种最常见的基因突变数据输入到算法系统中。经过训练,计算机系统能够以73%-86%的准确率,通过分析病理学图像来预测6种基因突变的存在

这项研究表明,AI不但能够帮助进行癌症的诊断,而且能够帮助医生们发现癌症的特定遗传特征,从而指导对患者的治疗选择

输入:组学数据,输出:癌症进化

即使没有图像,组学数据本身也能够为癌症治疗提供洞见。例如,英国癌症研究所(Institute of Cancer Research, ICR)的研究人员在利用机器学习分析基因组学数据,理解癌症的进化过程。一个肿瘤通常包括从原始癌细胞中产生的多个细胞谱系。想要有效治疗癌症,很重要的一点是理解肿瘤的异质性和肿瘤进化的方式。如果疗法只对肿瘤的一部分有效,那么癌症会复发。

通过对肿瘤的不同部位采样,研究人员能够推断出癌症的进化路径。而不同患者的肿瘤,通常具有差别很大的进化树,即便他们患上同样一种癌症。ICR的研究人员认为,如果他们能够发现癌症进化的共同路径,肿瘤学家就可以使用这些信息将患者分组,他们可能会有类似的疾病进展,或者对药物的反应相同。

研究人员使用了一种称为迁移学习(transfer learning)的机器学习系统来寻找不同患者肿瘤的共同进化树。这种算法同时对所有患者基因组的进化树进行分析,分享从不同进化树中获得的信息,然后找出一种与整个患者群体相符的解决方案。

▲AI找寻不同患者肿瘤的共同进化途径(图片来源:参考资料[5])作为第一步检测,研究人员设计了一个人工构建的“假”进化树,然后把相关的基因组信息输入到机器学习系统中,不出所料,AI输出了与研究人员构建的进化树一样的癌症进化信息。

然后,研究人员用一个常见的癌症进化树来检验AI的表现。在结直肠癌中,良性腺瘤以特定的顺序积累癌症驱动基因的突变,例如:先是APC基因出现突变,然后是KRAS,然后是PIK3CA。研究人员将9个良性腺瘤和10个恶性肿瘤的基因组信息输入给AI,它也能够描绘出从良性腺瘤向恶性肿瘤转变的正确进化树。

最后,研究人员让AI分析进化路径尚不明确的肿瘤样本。实验结果表明,AI根据99名非小细胞肺癌患者的基因组信息,将他们分为10个小组,其中有的小组患者生存期小于150天,而其它小组的患者生存期显著延长。这意味着这些分组具有预测预后结果的价值。这一算法同时还将50名乳腺癌患者分为不同小组,每个小组的患者生存期不一。“我们没有预计会出现分组,”这项研究的负责人,ICR进化和癌症中心的Andrea Sottoriva博士说:“这些结果表明,癌症的进化途径是可以预测的。”ICR最近启动了一项药物研发项目,专门针对癌症进化开发抗癌疗法。

药物开发依靠的是可以预测的规律,AI是一种帮助发现具有临床意义的规律的有力工具。目前,AI在癌症研究中的应用还刚刚开始,可以预见,将来的AI不只会整合组学数据和图像信息,还将整合其它类型的数据,包括治疗结果、疾病进展状况,和其它科学家们能够获取的信息。

“癌症是一种复杂的疾病,”Snyder博士说:“我们需要综合所有的信息来打败它!”

参考资料:

[1] AI Uses Images and Omics to Decode Cancer. Retrieved May 22, 2019, from https://www.the-scientist.com/features/ai-uses-images-and-omics-to-decode-cancer-65732

[2] Yu et al, (2017). Association of Omics Features with Histopathology Patterns in Lung Adenocarcinoma. Cell System, https://doi.org/10.1016/j.cels.2017.10.014

[3] Yu et al, (2016). Predicting non-small cell lung cancer prognosis by fully automated microscopic pathology image features. Nature Communications, https://doi.org/10.1038/ncomms12474

[4] Hu et al, (2019). An Observational Study of Deep Learning and Automated Evaluation of Cervical Images for Cancer Screening. JNCI: Journal of the National Cancer Institute, https://doi.org/10.1093/jnci/djy225

[5] Caravagna et al, (2018). Detecting repeated cancer evolution from multiregion tumor sequencing data. Nature Methods, https://doi.org/10.1038/s41592-018-0108-x

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业癌症机器学习卷积神经网络
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

推荐文章
暂无评论
暂无评论~