Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

胡梦颖作者杨茹茵编辑

CVPR 2019 | 弱监督图像分类建模

编者按:获取大规模数据集的高置信标注是一个难点问题,而解决此问题的弱监督学习更贴近人类对世界的认知机制。已有的弱监督图像分类研究,通常局限于单标签或者多标签噪声场景。本文中,将为大家介绍中科院计算所VIPL组的CVPR2019新作:作者提出了一种基于噪声正则化的弱监督图像分类方法,通过结合使用大量噪声标注数据和少量干净标注数据(比如5%),提升图像分类效果的同时,在多标签和单标签场景中取得了更好的泛化能力。

1.引言

计算机视觉领域,目前主流的图像分类方法仍然是基于完备标注数据的有监督学习,然而,在实际场景中,完全而精确的图像标签往往难以获得。例如,由于知识水平的差异不同的人可能对同一类图像有不同理解,从而给出不一致的标签。此外,为了降低标注成本,可以利用预训练模型对采集的大规模数据进行自动标注,但往往会得到大量不准确的标签,仅仅其中的一小部分数据可以得到人工验证。然而,传统的有监督学习方法很难处理这类带有噪声标签的数据。

现有的弱监督图像分类方法通常对于噪声标签类型有特定的假设,如单标签噪声或者多标签噪声。单标签噪声假设的分类方法,可以在训练过程中对于相似的图像进行聚类,而多标签噪声假设的分类方法,可以使用标签与标签之间的联系来增加算法的鲁棒性。尽管这些方法有助于提升模型的性能,但是在一定程度上限制了模型的泛化能力。

为此,在这个工作中,我们关注于提升模型的泛化能力,期待模型可以同时应用于单标签数据和多标签数据。我们观察到尽管现有的方法使用不同的假设辅助分类器学习,核心思想依然在于区分大量噪声标签中的可信与不可信的信息。如图1所示,一些使用标签与标签或者图像与标签之间关联的方法,会利用这些关系的正相关或者负相关强度来决定标签中的可用信息。

图表1  利用标签-标签关系和图像-标签关系的噪声学习方法

因此,我们提出了一种弱监督图像分类的方法,结合使用大量噪声标注数据和少量干净标注数据,通过两个子网络分别学习噪声标签中的可信与不可信的部分,减少了不可信的信息对模型的影响。我们的方法可以同时应用于单标签和多标签数据,并且不依赖于成对的干净-噪声标注数据。我们在两个多标签数据集(OpenImage和MS COCO2014)和一个单标签数据集(Clothing1M)评估了该方法。实验结果表明,该方法优于现有的最好方法,并在单标签和多标签噪声假设的场景下有很好的泛化能力。

2.方法

图表 2 方法网络结构示意图

2.1问题定义

我们的目标是结合利用大量的噪声标注数据 D_n 和少量的干净标注数据 D_c 得到一个鲁棒的图像分类模型。在现实场景中,我们可以假设噪声标注数据的数量 N_n 远大于干净标注数据的数量 N_c。

如图所示,我们以多任务学习的方式进行弱监督图像分类,同时训练两个分类器g和h分别拟合干净集合中的干净标签和噪声集合中的噪声标签。主干网络CNN(Backbone CNN)用于学习共享特征。净化网络(clean net)用于学习从特征空间到干净标签空间的映射,残差网络(residual net)用于学习从特征空间到标签残差(干净标签和噪声标签之间)的映射

分类器g为最终的目标分类器,用于学习映射F_c, 则分类器g可表示为:

分类器h为辅助分类器,用于学习映射 F_r, 则分类器h可表示为:

两个分类器同时使用了交叉熵损失,表示为:

则总体目标函数为:

2.2 用于噪声正则化的残差网络

分类器h可以被看作是g的噪声正则项的原因是,其工作方式与其他正则项的工作方式类似,都是用于缓解网络的过拟合问题。所提方法中的残差网络可以建模大量噪声标注数据中的不可信部分,从而反过来使得分类器g可以利用数据中的可信部分,进而提高分类器的鲁棒性。

3.实验结果

3.1数据集

为了测试所提出方法的有效性,我们在三个数据集上进行了实验,包括两个多标签数据集(MS COCO2014 和 OpenImage) 和一个单标签数据集(Clothing1M)。

图表 3数据集信息

3.2 评测指标

对于多标签数据,我们选取了平均准确率(mAP) 以及总体准确率(AP_all)。其中平均准确率是针对所有类别的准确率的平均值,而总体准确率是将所有类别看作同一类的准确率结果。

对于单标签数据,我们选取了top-1准确率作为评测指标。

3.3实验结果

图表4   多标签数据集结果

在MSCOCO和OpenImage数据集上,我们分别选取了5%-20%比例的干净标签和全部的人工确认标签作为干净数据集合。可以看出,与基准方法比较,即使干净数据只有5%的比例,我们的方法依然能有较好的性能提升。

图表 5 单标签数据集结果

在Clothing1M上,我们的结果与其他SOTA方法相差无几。然而,CleanNet 和 Forward方法严格基于单标签假设,而我们的模型泛化能力更佳。

图表6   消融实验

为了显示残差网络的影响,我们比较了不同的训练方式。可以看出,加入残差网络,以协同的方式训练分类器g和h,在OpenImage 和Clothing1M上 可以分别提升1.4%(mAP) 和 4.8% (top-1)。

4.结论

当实际应用中大规模干净数据集不可得的时候,利用大规模噪声标注数据的弱监督图像分类变得很有价值。但是由于噪声数据中的语义信息难以准确获得,导致问题十分具有挑战性。我们通过提出一种新的可端到端训练的方法来解决这个问题。该方法由一个净化网络(clean net) 和一个残差网络(residual net) 组成,残差网络通过学习噪声标签和干净标签之间的残差以缓解净化网络对于干净标签过拟合的风险。多标签和单标签数据集的实验结果表明模型在提升准确率的同时拥有更好的泛化能力。

论文信息:

Mengying Hu, Hu Han, Shiguang Shan, Xilin Chen, “Weakly Supervised Image Classification through Noise Regularization,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR2019), pp. 11517-11525,  Long Beach, California, USA, June 16-20, 2019.

论文链接:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Hu_Weakly_Supervised_Image_Classification_Through_Noise_Regularization_CVPR_2019_paper.pdf

作者简介

胡梦颖,中科院计算所VIPL课题组多模态生物特征组2017级硕士生,导师为韩琥副研究员。研究兴趣包括弱监督图像分类、噪声/缺失标签处理与学习。曾在ACCV、CVPR上发表论文各1篇。
深度学习大讲堂
深度学习大讲堂

高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息。

理论CVPR 2019图像分类弱监督学习智能软件计算机视觉
51
相关数据
基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

多任务学习技术

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
请问这个有代码实现,可以参考吗