2019/10/23 11:21

徐罡、宋志刚等人作者

2019 ICCV收录论文：基于弱监督学习的病理影像分析框架

基于弱监督学习的病理影像分析框架

一、研究背景

恶性肿瘤是全球第二大死因，每年导致近千万人死亡。病理报告是肿瘤临床诊断和治疗的“金标准”，是癌症确诊和治疗的基本依据。为了缓解世界范围内病理医生短缺的现状，人工智能病理诊断成为当今学术研究和工程落地的热点。数字病理切片的体积通常都在500MB至2GB，像素数超过百亿，有监督的病理诊断模型需要进行繁琐的像素级切片标注，对这一领域的快速发展带来了挑战。

相比之下，弱监督学习仅需要图像级别的粗粒度标签，能够大幅降低标注的工作量。由于单个数字病理切片尺寸过大，仅通过切片级诊断很难获得高准确率的结果（建立弱监督学习模型通常需要超过1万张数字切片 [1]），研究人员通常将数字病理切片划分为若干的图像（image），对每一个图像打上标签（例如在二分类的场景下，如果图像包含有癌区，则标注为1，反之标注为0），进而获得弱监督学习模型。

但是，由于对监督信息利用率不足，在之前发表的研究工作中，弱监督学习算法的准确率远低于有监督学习 [2-5]。在本研究中，我们提出弱监督学习框架CAMEL，通过多实例学习（multiple instance learning, MIL），CAMEL能够通过建模自动生成细粒度（像素级）的标注信息，从而可以使用有监督的深度学习算法完成图像分割模型的建立。通过在CAMELYON16 [6]和解放军总医院肠腺瘤数据集上的验证，CAMEL能够取得接近完全有监督模型的准确率。

二、CAMEL算法设计

图1: CAMEL系统架构，M和m分别表示图像和图像块的尺寸，N=M/m为比例因子CAMEL的运行过程包括两个步骤：监督信息增强（label enrichment）和有监督模型训练（supervised learning）（见图1）。CAMEL将图像（image）等距切分为更小的图像块（instance），在监督信息增强过程中自动为每一个块进行标注，进而将弱监督转化为有监督的问题。

CAMEL的有效性取决于监督信息增强后图像块标注的质量，为了提高标注的准确率，我们提出⼀种组合多实例学习（cMIL）的方法。在cMIL的训练过程中，我们需要找到图像中的代表图像块，其预测结果可以视为整张图像的分类标签（类比注意力机制）。在实际操作过程中，每一张图像被分成N×N个大小相等的块，同一张图像所对应图像块的集合被称为一个“图像包（bag）”。

图2: Max-Max与Max-Min判据示意图，红色和绿色圆圈分别代表CA和NC图像块，这里我们使用三角形来表示选择出的图像块，每个椭圆代表一个图像包如果一张图像中包含有癌变区域（CA），我们可以推断至少一个图像块包含有癌变区域。反之，若一张图像中没有癌变区域（NC），则所有的图像块均没有癌变。cMIL使用了两个不同的图像块选择判据（即Max-Max和Max-Min，见图2），如图3所示，在训练过程中，我们首先使用Max-Max（或Max-Min）从每个图像包中选择一个图像块，然后根据图像块的预测结果与图像的分类标签一起来计算成本函数。两种判据分别训练得到两个深度学习模型，我们将同一份训练数据分别送到两个模型中，并通过对应的判据选择出最有代表性的图像块（这里，我们排除了两个模型预测结果不同的图像块）。在本研究中，我们采用了ResNet-50作为图像块分类器，并使用交叉熵作为成本函数。

图3: cMIL的训练过程最后，我们使用选择出的有标注图像块训练新的分类器，使用训练后的分类器对训练集的所有图像块进行预测。至此，我们将图像级的标注增强到了图像块级别，获得了N×N倍的有监督信息。

我们将图像块级别的标注直接赋给每一个像素点，便可以使用现有的图像分割模型，如DeepLab和U-Net，以有监督的方式训练像素级预测模型。

三、提升效果

为了更加充分的利用监督信息，我们提出了级联数据增强（cascade data enhancement）和图像级别约束（image-level constraint）两种方法，能够进一步提高模型的准确率。

获得比例因子为N的图像块数据，我们既可以使用cMIL(N)，又可以使用cMIL(N1)和cMIL(N2)（其中N=N1×N2），级联数据增强方法通过两种方式来生成图像块标注数据。

在之前介绍的算法中，在使用增强信息后的图像块数据进行分类器训练的过程中，我们并没有使用图像级别的标签信息。为了将图像级监督信息引入到模型的训练过程中，我们可以在训练图像块级别分类模型时，将分类器的网络结构设置为与cMIL相同，并复用cMIL的训练框架，进而将图像级的分类数据作为另⼀个有监督信息源参与到训练过程中。

四、实验结果

CAMELYON16包含400张HE染色的乳腺淋巴结数字病理切片，我们将切片中200x视野1280×1280的影像作为图像级数据。CAMELYON16的训练集包含240张（110张包含CA）切片，对应5011张CA和96496张NC图像，我们对CA图像过采样以匹配NC图像的数量。此外，我们还构建了320×320和640×640两个完全有监督的训练数据集，以便与弱监督模型进行比较。测试集包括160张（49张包含CA）切片，可获得3392张CA图像，我们随机抽样了对应数目的NC图像。

表1: 测试集上图像块监督信息增强效果如表1和图4所示，Max-Max倾向于给出低敏感度高特异性的结果，Max-Min则恰好相反。结合二者所获得的数据，可以得到更加均衡的模型。可以看到，CAMEL获得的320×320和160×160图像块标注数据准确率仅比完全有监督模型低1.6%和1.1%。

图4: 图像块分类结果，FSB代表完全有监督学习（fully supervised baseline）我们测试了DeepLab v2（ResNet-34）和U-Net在图像分割上的表现，表2给出了不同模型的敏感度、特异性、准确率和交并比（intersection over union, IoU）。可以看到，CAMEL的效果远好于原始图像级标注，并接近完全有监督学习。

表2: 图像分割模型像素级准确率使⽤160×160图像块所获得的模型准确率高于320×320（见图5），说明了监督信息增强方法的有效性。我们在图6给出了不同模型在切片级数据上的预测结果。

图5: CAMEL的像素级分割（DeepLab v2）结果

图6: 切片级图像块分类与像素级分割（DeepLab v2）结果

五、总结与展望

在本研究中，我们提出了仅使用图像级标签进行组织病理学图像分割的弱监督学习框架CAMEL，并获得了与有监督学习相当的模型准确率。CAMEL是一个通用的算法框架，同样适用于其他领域的相关应用。

CAMEL能够加速数字病理切片的标注过程，推进病理人工智能研究和落地的进程。人工智能病理辅助诊断系统可以帮助医生完成大部分简单、重复的工作，极大提高医生工作效率，减轻医生的工作负担。对于医疗资源较落后的地区，人工智能还可以提高当地的病理诊断水平。

【参考文献】

[1] Campanella, Gabriele, et al. "Clinical-grade computational pathology using weakly supervised deep learning on whole slide images." Nature medicine 25.8 (2019): 1301-1309.

[2] Diba, Ali, et al. "Weakly supervised cascaded convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[3] Ge, Weifeng, Sibei Yang, and Yizhou Yu. "Multi-evidence filtering and fusion for multi-label classification, object detection and semantic segmentation based on weakly supervised learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[4] Jia, Zhipeng, et al. "Constrained deep weak supervision for histopathology image segmentation." IEEE transactions on medical imaging 36.11 (2017): 2376-2388.

[5] Xu, Yan, et al. "Weakly supervised histopathology cancer image segmentation and classification." Medical image analysis 18.3 (2014): 591-604.

[6] CAMELYON 2016. https://camelyon16.grand-challenge.org (2016).

【作者介绍】

徐罡：透彻影像实习算法研究员，清华大学博士。

宋志刚：中国人民解放军总医院病理科副主任，中华医学会病理学分会头颈部学组委员，医学装备协会远程病理专委会常务委员，北京肿瘤病理精准诊断研究会委员。

孙卓：透彻影像算法研究员，荷兰莱顿大学医学中心博士，埃因霍芬理工大学硕士，原Philips全球研发中心研究员。

Calvin Ku：透彻影像高级算法工程师，英国东安格利亚大学硕士，原FinUp（凡普金科）数据科学家。

杨哲：透彻影像实习算法研究员，清华大学博士，清华大学物理系博士后与助理研究员。

刘灿城：透彻影像算法研究员，原京东算法工程师。

王书浩：透彻影像联合创始人、CTO，清华大学博士，清华大学交叉信息研究院博士后与助理研究员，原京东数据科学家。

马剑鹏：复旦大学复杂体系多尺度研究院教授、博士生导师，波士顿大学博士。

徐葳：清华大学交叉信息研究院副教授、助理院长、博士生导师，图灵人工智能研究院副院长，加州大学伯克利分校博士。

THU数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

理论ICCV 2019弱监督学习医学影像

相关技术

知识图谱

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看，图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程，即把属于同一区域的像索赋予相同的编号。

来源：百度百科

交叉熵技术

交叉熵（Cross Entropy）是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

分类数据技术

一种特征，拥有一组离散的可能值。以某个名为 house style 的分类特征为例，该特征拥有一组离散的可能值（共三个），即 Tudor, ranch, colonial。通过将 house style 表示成分类数据，相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。有时，离散集中的值是互斥的，只能将其中一个值应用于指定样本。例如，car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下，则可以应用多个值。一辆车可能会被喷涂多种不同的颜色，因此，car color 分类特征可能会允许单个样本具有多个值（例如 red 和 white）。

来源：Google ML glossary

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

L系统技术

L－系统是匈牙利生物学家Aristid LinderMayer于1968年提出的。.L－系统的本质是一个重写系统，通过对植物对象生长过程的经验式概括和抽象，初始状态与描述规则，进行有限次迭代，生成字符发展序列以表现植物的拓扑结构，并对产生的字符串进行几何解释，就能生成非常复杂的分形图形。

来源：百度百科

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

京东机构

京东（股票代码：JD），中国自营式电商企业，创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com