近年来,由于在产业中的巨大潜力,时尚图像分析成为了活跃的研究课题。但是,由于巨大的变形、遮挡,以及消费者和商业图像之间存在的服装域的差异,在实际应用中,理解时尚图像仍然是一个挑战。一些挑战可能根植于最近的基准和实际场景之间的差异。例如,现有的最大的时尚数据集 DeepFashion 就有其自身的缺点,比如说每个图像只有一件服装,稀疏的标记和姿态定义(每个服饰类别会共享 4~8 个关键点),如图 1.(a) 所示,没有每个像素的掩膜标注。
图 1.DeepFashion(a)和 DeepFashion 2(b)的对比。(a)每幅图像只有一件衣服,用 4~8 个稀疏标志标注。边界框是基于标签标记估计出来的,使得它们看起来很乱。在图(b)中,每张图像最少有一件服饰,最多有七件服饰。每件服饰都被手动标记了边界框、掩膜和密集的标注(平均每件服饰 20 个标记),还有卖家秀-买家秀图像对。
为了解决上述缺陷,这项工作提出了 DeepFashion2,这是一个大规模的基准集,具有全面的任务和时尚图像理解的标注。DeepFashion2 包含 49.1 万张图像,包含 13 种流行的服饰类别。在这个数据集上定义了全面的任务,包括服饰检测和识别、标记和姿态估计、分割以及验证和检索。所有的这些任务都有丰富的标注支持。
例如,DeepFashion2 总共有 80.1 万件服饰,如图 1(b)所示,其中每件都标有比例、遮挡、缩放、视角、边界框、密集标注和像素掩膜。这些服饰可以被归类为 4.38 万个服饰标识,其中服饰标识代表一类具有几乎相同裁剪、图案和设计的服饰。拥有同一类服饰标识的图像既有买家秀,也有卖家秀,卖家秀和买家秀组成图像对。该数据集中总共有 87.3 万买家秀-卖家秀图像对,比 DeepFashion 大 3.5 倍。上述详细的注释助力开发强大的算法来理解时尚图像。
这项工作有三个主要贡献:(1)构建了具有全面任务和标注的大规模时尚数据集基准来推动时尚图像分析。DeepFashion2 拥有最丰富的任务定义和最大数量的标签。它的标注至少是 DeepFashion[14] 的 3.5 倍,是 ModaNet [21] 的 6.7 倍,是 FashionAI [1] 的 8 倍。(2)在本文提出的数据集上仔细定义了全部任务。例如,据本文研究者所知,服饰姿态估计是首次在文献中通过对 13 个类别的姿态和标记进行定义来提出,这些姿态要比人类的姿态更多样化,更加丰富。(3)研究者用 DeepFashion2 广泛地评测了 Mask R-CNN [6],这是最近提出的一个用于视觉感知的框架。本文还提出了一个新的 Match R-CNN 来聚合所有从服饰类别、姿态以及掩膜中学习到的特征,用一种端到端的方式解决服饰图像检索的问题。DeepFashion2 和 Match R-CNN 的实现即将发布。
论文:DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images
论文地址:https://arxiv.org/abs/1901.07973
摘要:理解时尚图像已经通过通过具有丰富的标注的基准数据集进行了提升,例如 DeepFashion,它的标签包含服饰类别、标记和卖家秀-买家秀图像对。但是,DeepFashion 有它不可忽视的问题,例如,一副图像只有一个单独的服饰,稀疏的标记(仅有 4~8 个),以及没有像素掩膜,这使得它与现实场景之间存在巨大的差距。我们通过提出 DeepFashion2 填补这种差距,以解决这些问题。它是一个含有 4 个任务的多功能基准集,包括服饰检测、姿态估计、分割以及检索。它有 80.1 万件服饰,每件都有丰富的标注,例如风格、比例、视角、遮挡、边界框、密集标记和掩膜。其中也有 87.3 万对买家秀-卖家秀图像。我们还提出了一个强大的基线模型,叫做 Match R-CNN,它是在 Mask R-CNN 的基础上构建的,用来以一种端到端的方式解决上述四种任务。我们用不同的标准在 DeepFashion2 上开展了评估。
2 DeepFashion2 数据集和基准
与现有的时尚数据集相比,DeepFashion2 有 4 个独特的特点:
大规模:它包括 49.1 万张图像,总共是 4.38 万个服饰标识(购物店展示的独特服饰)。
多功能:DeepFashion2 面向多种时尚理解任务。它丰富的标注支持服饰检测和分类、密集标注和姿态检测、实例分割以及跨域实例级别的服饰检索。
表达能力:这主要反映在两个方面。首先,单幅图像中存在多个服饰;其次,本研究有 13 种不同类别的标识和姿态。
多样性:研究者通过控制它们的 4 个属性变量来收集数据,包括尺寸、遮挡、缩放和视角,如图 2 所示,这使得 DeepFashion2 成为了一个具有挑战性的基准。
图 3(a)展示了 DeepFashion2 中不同变量属性的统计数据。(b)是 DeepFashion2 中 13 种类别的数目。(c)展示了 DeepFashion[14] 中类别的含糊不清。例如,很难区分开衫(cardigan)和外套(coat),很难区分慢跑者(joggers)和运动裤(sweatpants)。这在给数据打标签的时候会造成歧义。(d)上:出现复杂的姿态时,掩膜可能不准确。下:掩膜都是由人工精调的。
3 Match R-CNN
研究者在 DeepFashion2 上基于 Mask RCNN [6] 提出了一个强大的基线模型,名为 Match R-CNN,它是一个端到端的训练框架,联合学习了服饰检测、标志估计、实例分割和买家秀-卖家秀的检索。
图 4.Match R-CNN 的三个主要组成部分:一个特征提取网络(FN)、一个感知网络(PN)以及一个 match 网络(MN)。
4 实验
研究者通过评估 Mask R-CNN [6] 和 Match R-CNN,在多项任务中展示了 DeepFashion2 的有效性,包括衣物检测和分类、标志估算、实例分割和买家秀-卖家秀服饰检索。
表 3: 在不同的验证子集上使用 Mask R-CNN [6] 的标志估计,包括尺寸、遮挡、缩放和视角。
图 5:(a)展示了服饰检测失败的例子;(b)展示了服饰分割失败的例子。在(a)和(b)中,缺失的边界框用红色绘制。不准确的掩膜也在图(b)中用箭头标出来了。
图 6:(a)展示了标志和姿态估计的结果。(b)展示了服饰分割的结果。(c)展示了服饰查询的 top 5 的结果。第一列是买家秀图像,它具有由检测模块预测的边界框,第二列到第六列展示了卖家秀图像检索结果。(d)在整体查询验证集上的检索精度,(1)是检测框,(2)是真实框。
表 4: 在不同的验证集上使用 Mask R-CNN [6] 进行服饰分割的结果,包括尺寸、遮挡、缩放和视角。