本文提出了一种通过关联图像显著性实例而实现弱监督语义分割的新方法。
论文名称:《Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation》
论文链接:http://mftp.mmcheng.net/Papers/18ECCVGraphPartition.pdf
目录
导语
背景
设计思想
网络架构
实验
结论
参考文献
往期解读
导语
深度学习方法分为有监督学习和无监督学习,前者为深度学习“攻下一座座城池”,硕果累累,而后者则是希望和未来所在。然而,介于两者之间的弱监督学习同样不容忽视,潜力巨大。在本文中,旷视科技和清华大学通过原创性地整合显著性检测和图划分算法等多种技术,提出一种新型弱监督学习方法,加速语义分割发展,推动该技术在自动驾驶、安防、新零售、物流等行业的落地和普及。
这一方法的最大技术亮点是既利用的每个显著性实例的内在属性,又挖掘了整个数据集范围内不同显著性实例的相互关系。实验结果表明了该方法的有效性和高效性。正是通过一个个技术难点的攻克,不断积淀,相互共振,促成 AI 原创技术矩阵,形成 AI+IoT 体系,助力旷视科技以非凡科技持续为客户和社会创造最大价值。
背景
语义分割是计算机视觉领域最为重要的任务之一,其目的是为图像的每个像素标注语义信息。卷积神经网络强大的学习能力使这一领域取得了巨大的进展,但神经网络的训练需要大量的像素级标注的训练数据,比如 PASCAL VOC 和 MS COCO。
弱监督语义分割作为一种降低对像素级标注数据需求的新方法,近期备受关注。这一方法只需要诸如关键词(keywords)、边界框(bounding boxes)、线条(scribbles)、点(points)等标注信息,即可轻松完成数据的构建。本文研究的是只有关键词作为标注信息的弱监督框架。
在弱监督语义分割中,一个主要挑战是在关键词与相应的语义目标之间建立有效的连接。绝大多数先前方法使用各种低层信息检测器(low-level cue detectors)捕捉像素级信息以从原始图像中生成辅助(proxy)ground-truth。显著性模型和注意力机制都是常用的方法。由于上述方法只给到像素级显著性/注意力信息,很难把不同前景目标目标区分开。因此,判别语义实例的能力尤为关键。
随着显著性检测算法的快速发展,一些显著性检测器,比如 MSRNet 和 S^4Net,不仅可以实现显著性区域的像素级预测,还可以提取显著实例。通过借鉴上述实例级显著目标检测器的优点,本文提出利用 S^4Net 从而在早期显著性检测阶段执行实例提取任务,这极大地简化了pipeline,一些由 S^4Net 生成的实例级显著性图像如图 1(b) 所示。
图 1:本文方法图示。
由于通过显著性检测等低层特征检测器获得的前景不含语义信息,对于多标签训练样本,为每个前景目标分配正确的关键词(标签)是需要解决的重要任务。传统方法处理弱监督问题时,着眼于独立处理每一张图像。本文不仅利用了每个显著性实例的内在特征,而且借助在整个数据集范围内所有显著性实例的语义相互关系,为每个显著性实例分配正确的语义标签,生成 proxy ground-truth。这一算法可以使用图划分建模。
设计思想
为了利用带有边界框的显著性实例掩码,需要克服两个主要困难。第一,一张图像可能标注多个关键词,因此要解决关键词和显著性实例的对应问题。第二,并不是所有的由显著性实例检测器生成的实例都是在语义上有意义的,纳入这些噪声实例会影响后续操作的准确性。因为识别和去除这些噪声实例在本文方法中很重要。上述两个困难都可以表示为标签分配问题,即分别为语义实例和噪声实例打上正确的标签。
本文在整个训练集内,综合考虑一个显著性实例的内在信息和显著性实例间的相互关系。通过注意力机制等方法,仅仅考虑 RoI 的内部信息,即显著性实例的本质特征,对显著性实例赋予正确的标签也是可能的。但是,除了每个 RoI 的内在属性,每个显著性实例之间还有语义上的相互关系:同一类别的显著性实例通常有着相似的语义特征。将其考虑在内对标签分配很重要。
具体而言,一方面,这一新框架包含一个注意力模块,基于内在属性预测某个显著性实例属于各个标签的概率;另一方面,通过一个提取器为每个显著性实例预测语义特征,以获取语义关系。在语义上相似的显著性实例有着近似的语义特征向量。
基于语义特征可以得到一张相似性图,其中顶点表示显著性实例,边权重记录一对显著性实例之间的语义相似性。本文通过一个图划分算法把图分为若干个子图,其中每个子图表示一个具体的类别。图划分流程被建模为一个混合整数二次规划问题(MIQP),从而获得一个全局最优解。其目标是使每个子图内部的顶点尽可能相似。图划分过程也会把显著性实例的内在属性考虑在内。
本方法给出了高质量的 proxy-ground-truth 数据,可训练全监督语义分割模型。当在 DeepLab 上处理语义分割任务之时,本文方法在 PASCAL VOC 2012 测试集上 mIoU 为 65.6%,优于当前最优方法。在像素级语义分割之外,本文还利用实例级 proxy-ground-truth 数据训练了实例级分割模型,首次证明了只使用关键词标注的弱监督框架进行实例级分割的能力。
网络架构
在这一部分,首先给出 pipeline 概述,接着讨论网络结构和标签分配算法。该框架如图 2 所示。绝大多数依赖于像素级线索(比如显著性、边缘、注意力图)的先前工作把实例判别作为一项关键任务。但是,随着深度学习的发展,显著性检测器可以预测显著性图以及实例边界框。在给定只标有关键词的训练图像的情况下,研究者借助实例级显著性分割网络 S^4Net 从每张图像中提取显著性实例。每个显著性实例有一个边界框和一个掩码,表明图像中有一个视觉可见的前景目标。这些显著性实例是类别不可知的,因此提取器 S^4Net 无需针对本文训练集进行训练。尽管显著性实例包含训练分割掩码的 ground-truth 掩码,但是使用这些显著性实例训练分割网络有两个主要的限制。
首先,一张图像可以标注多个关键词。其次,由 S^4Net 检测的实例不一定在训练集的类别之中。本文把这些显著性实例看作是噪声实例,消除它们是本文 pipeline 不可或缺的一部分。两个限制可通过解决标签分配问题而解决,其中研究者把显著性实例与基于图像关键词的正确标签相联,并把其他实例标为噪音。
图 2:Pipeline。
本文 pipeline 同时考虑了一个单一区域的内在属性和所有显著性实例之间的关系。一个分类网络输出的分值图中,目标所在区域(像素)内会有对正确的类别的较强响应。因此,在类激活映射(class activation mapping/CAM)的启发下,本文利用注意力模块直接根据其内在属性识别显著性实例的标签。
现有弱监督分割工作的一个弱点是一张张处理训练集,忽略了整个训练集中显著性实例之间的关系。但是,属于同一类别的显著性实例有着相似的语义信息,可在标签分配中发挥作用。本文架构提取每个显著性实例的语义特征,语义信息相似的区域有着相似的语义特征,并由此构建一个相似性图。标签分配现在变成了一个图划分问题,同时利用了单一显著性实例的内在属性和所有显著性实例的整体关系。
实验
本节展示了该方法在 PASCAL VOC 2012 语义分割基准上的结果,同时与一些当前最佳方法做了对比。结果表明该框架大幅超出所有现有的弱监督方法。本文同样也通过一系列实验分析每一组件的重要性。本文进而给出了在 MS COCO 实例分割任务上的初步结果。
表 3 给出了在 PASCAL VOC 2012 验证集和测试集上新的当前最优结果。具体而言,相较于 Mining Pixels 的基线结果,该方法在测试集和验证集上分别实现了 6% 和 5.8% 的提升。另外,值得注意的是,该方法甚至优于(以线条和点的形式)带有额外监督的其他方法。
除了语义分割结果,本文还展示了只使用关键词的弱监督方法的实例分割结果。表 4 把本文方法与当前最优的全监督方法进行了结果对比。只借助带有关键词的原始 RGB 图像,即可实现实例级分割。
表 3:本文方法在 PASCAL VOC 2012 验证集和测试集上的像素级分割结果及与现有最佳方法的对比。
表 4:本文方法在 COCO 测试集上的实例分割结果及对比。
结论
本文提出一个全新的弱监督分割框架,旨在基于提取自训练图像的显著性实例和被分配的标签,生成精确的 proxy-ground-truth 数据。本文把显著性实例引入弱监督分割,极大地简化了现有工作中的目标判别流程,并使得该框架可执行实例级分割。本文把标签分配任务建模为一个网络划分问题,通过整数二次规划对这一问题进行求解。为提升标签分配的准确性,来自单一的显著性实例的内在信息和整个数据集中所有目标的关系同时被考虑在内。
实验表明该方法在 PASCAL VOC 2012 语义分割基准上取得了新的当前最优结果,并首次展示了只有关键词作为标注信息的弱监督方法在 MS COCO 实例级语义分割任务中所取得的结果。