2019/09/19 10:45

ICCV DeepFashion2 Challenge服饰关键点估计比赛结果揭晓，美图影像实验室MTlab夺冠

近日，ICCV DeepFashion2 Challenge2019公布了比赛结果，美图影像实验室MTlab凭借其在综合检测精度上的优势，以明显差距斩获服饰关键点估计（Landmark Estimation）赛道的冠军。DeepFashion2 Challenge此次共吸引18支国内外顶级技术团队参与，包括清华大学、阿里巴巴等知名企业及学术机构。MTlab首次参与DeepFashion系列比赛，旨在通过比赛与同行、学者进行深层次的交流，学习并优化目标检测、关键点估计等相关算法，以提升服饰相关技术的性能水平。

图1 ICCV DeepFashion2 Challenge 2019

据介绍，DeepFashion2 Challenge是基于DeepFashion1和DeepFashion2 公开数据集基础上的计算机视觉领域技术竞赛。今年的比赛分为两个赛道，服饰关键点估计及服饰检索（Clothes Retrieval）。此次美图参与的是服饰关键点估计赛道，服饰关键点估计比赛包含193,000个图像训练数据，32,000个验证集图像数据，63,000个测试集图像数据。比赛任务中包含13个不同的服饰类别，每个类别都有独立的8到37个关键点，共计294个关键点。如何实现同时检测多个类别共294个关键点是此次比赛的难点之一。此外，如图2所示，DeepFashion2数据集包含了多种尺度、遮挡、视角等复杂情况下的服饰图像数据，因此提升模型对服饰在不同情况下的鲁棒性也是比赛的一大挑战，需要投入大量的研发精力。

图2DeepFashion2数据类型分布

在本次比赛中，MTlab团队所建立的模型在综合检测精度表现出明显优势，该模型可以同时对13个类别的服饰进行关键点估计，相较于多个模型而言，大大降低了算法复杂度以及使用成本。其次，该模型还具备良好的扩展性，通过类别信息的使用，可以一次应对多类别的数据。

目前基于多目标的关键点估计方法大致可以分为自下而上（Bottom-up）和自上而下（Top-down）两类。自上而下的方法主要包含两个步骤，首先通过目标检测算法将图像中的每一件服饰检测出来，随后针对每一个检测出来的服饰区域图像估计其关键点位置。自下而上的方法也包含两个步骤，首先将图片中所有的服饰关键点检测出来，然后通过一定计算方式将关键点聚类到不同的服饰上。为了提高模型的扩展性与应用性，并且缓解单图多目标交叉重叠导致的关键点错位等问题，MTlab采用了基于自上而下方法的关键点检测方案，即将该任务分解成多目标框检测及单目标关键点估计，并将这两步操作进行单独优化。

基于自上而下的方法，第一步是进行服饰检测。目标检测是计算机视觉中的核心任务之一。目标检测即自动找到图像中所有目标物体，包含物体的定位和物体分类两个子任务，同时确定物体的类别与位置。当前对目标检测的研究是学术界的一个热点，R-CNN、Fast R-CNN、Faster R-CNN、YOLO及SSD等一系列模型的提出大大加速了该领域的发展，比如人脸检测、行人检测及车辆检测等在工业界也得到了很好的应用。但是针对服饰数据的目标检测任务当前少有研究也应用不足，一个主要的原因是服饰数据标注难度较大，且公开的高质量标注数据集少。

此次比赛的数据集除了服饰关键点标签外还提供了包含服饰检测框外的多种标注标签，据此，MTlab团队可以进行服饰检测的模型训练学习。此外，基于自上而下的方案，由于最终关键点是基于目标检测的结果来做估计的，所以服饰检测的好坏对最后成绩的影响至关重要。第二步进行单服饰的关键点估计。目前对关键点的估计应用最多的是人体骨骼点估计, 已有的方法在模型上可分为单阶段的（One-stage）以及多阶段的（Multi-stage），在输出上可分为基于坐标回归（Coordinate）、热力图（Heatmap）以及热力图结合偏移信息（Heatmap + Offsets）。相对于人体骨骼数据，服饰关键点数据在遮挡、角度、尺度以及非刚性变形尤为严重，这也使得服饰关键点估计异常困难。

在最终的实施方案中，MTlab首先在图上做目标框检测，找出可能为服饰的目标框，由此可以获得较多粗略的服饰框。再基于这些框的检测结果去做单服饰目标框的关键点估计，并同时对框进行额外的打分，给出最终有效的关键点。通过这种方案，可以分开优化多目标框检测模型和单目标关键点估计模型，降低模型优化复杂度，从而可以更充分地利用计算资源以提高该模型的准确度。而在应用层面上，服饰检测与服饰关键点识别有不同的应用领域，两个模型均可独立使用，后续模型仍可以有效地通过不同数据持续优化提高。

图 3服饰关键点预测流程图

在比赛的多目标框检测阶段，MTlab采用了Hybrid Task Cascade model (如图3上图所示)作为基础模型。而在单目标关键点估计阶段，则以Multi-stage Pose Estimation Network (图3下图所示)的肢体关键点估计模型作为基础模型。在两个基础模型上，MTlab基于服饰关键点检测任务的特点以及评价指标，针对模型的不同方面进行了深入的优化及改进：

1、由于服饰检测任务较为复杂，各种尺度及遮盖等情况往往会造成误检、漏检等问题，所以MTlab使用多尺度训练及多尺度测试的检测方案对模型进一步优化。同时利用该方案two stage的特性，在目标框检测过程中优化了模型的召回率，在关键点估计模型中除了给出关键点，还会对目标检测阶段给出的框基于置信度打分，这样有助于提高算法的精确度，从而达到在mAP指标上的的整体优化。

2、该任务中需要检测的关键点一共包含13个不同服饰类别的294个关键点，每个类别都有自己独立的一组关键点。为了实现一个模型可以同时检测所有类别的关键点，MTlab将第一步目标框检测中给出的类别信息作为先验知识，通过与输入数据在通道维度上的concatenate，加入到关键点估计模型中，给予一个强的先验知识，可以帮助关键点估计模型降低学习难度，并且提高了置信度打分的精度。

3、在关键点估计模型中，各个类别中的关键点间存在着一定的结构关系，为了更好地挖掘这种空间相关信息，MTlab在模型中引入non-local 的结构进行特征信息融合计算，替代了部分原始模型的resblock，从而提高整体关键点的准确性。

4、在关键点模型中，为了让模型能一步步地定位到更为精细的关键点位置，在计算各个scale和stage的损失函数时，MTlab针对不同scale和不同stage采用不同的损失权重。除此之外，为了提高较难检测关键点的预测精确度，MTlab通过对不同scale的输出采用不同的OHKM的策略来计算损失权重。虽然最终以最后一个stage的最大scale输出作为模型，但它依赖于前面所有尺度的计算结果，因此对不同尺度的输出进行优化则相当于优化了最终的输出结果。

5、通过图4不难发现，DeepFashion2官方给出的数据集中有较为严重的数据不均衡情况，数据量最多的类别的数目是最少的约180倍之多，该情况对模型的训练带来了较大的影响。为了解决这个问题，MTlab的模型在目标框检测阶段与关键点估计阶段的loss计算中，引入了针对不同类别的attention，以减少训练中不同类别数据不均衡的情况对关键点模型的影响。

图片包含屏幕截图

描述已自动生成图4 DeepFashion2 衣服类别数量分布

通过对基础模型进行多维度的强化，MTlab团队最终在测试集上获得了0.5775 mAP的分数，意味着在结合召回率与精确度的综合指标上超过了其他参赛团队。

图5 预测结果图

MTlab作为美图公司的核心算法研发部门，在计算机视觉、深度学习、增强现实等领域深耕多年，具备强大的研发实力。其中，基于服饰的计算机视觉技术也是MTlab重点研究方向之一。据悉，服饰信息识别技术目前已成功应用在美图秀秀动漫化身功能中，系统可以识别用户上传人像的服装风格，并匹配生成穿着同款服饰的卡通形象。谈及该技术未来的应用前景，MTlab负责人说道：“服饰作为衣食住行的一个重要方面，是一项刚需。因此，与服饰相关的视觉识别技术，有着广泛的应用场景，比如时尚趋势分析、营销数据分析等，对商品精准推荐、服饰潮流捕捉等方面都有着重要意义。”

据MTlab介绍，服饰信息识别技术是人工智能算法在服饰电商、内容媒体和线下服装零售等行业实现应用落地的基础。对于商家而言，该技术有利于在实现数据智能化管理，平台智能化运营，降低人力成本的同时提高运营效率。而对于用户来说，该技术可以为用户提供个性化推荐、智能搭配、虚拟试穿和一键购物等服务，有效提升了用户的购物体验。

具体来看，在服饰电商领域，该技术可以融入到电商平台的一些智能化业务之中，包括拍照购物、搭配推荐和用户个性化等。一方面有助于电商平台为用户提供更优质的用户购衣体验，从而提高店铺转化率和客单价；另一方面电商平台可以实现智能化运营，降低人力成本的同时提高运营效率。在内容媒体方面，该技术可以辅助内容媒体更高效地产出时尚图片、短视频等优质内容，也可以让时尚媒体的优秀内容产品被轻松检索、关联和推荐。而在线下服装零售中，该技术在未来可以结合到智能硬件及其他技术一体化解决方案中，从而为门店客户提供一键购衣试衣、智能搭配和推荐等服务。通过智能化服务，为消费者带来全新购衣体验。

从服装电商、信息检索、个性化推荐到智能试衣，服饰相关技术日趋成熟，为科技赋能商业增添了更多的可能性。MTlab负责人对此表示：“未来我们会加速服饰相关技术算法的应用落地，将算法与更多的业务结合，对模型进行优化以适配不同的使用场景。同时也将充分利用该模型结构的可拓展性，服务于服饰以外的更多领域。”值得一提的是，美图公司于今年4月正式上线美图AI开放平台，并且已成功服务于诸多业务场景，包括医疗美容、美妆门店、智能硬件、移动互联网等领域。

References:

[1] Kai Chen et al. Hybrid task cascade for instance segmentation. In: IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[2] Wenbo Li et al. Rethinking on Multi-Stage Networks for Human Pose Estimation. 2019. arXiv:1901.00148

美图影像研究院MT Lab

美图影像研究院（MT Lab, Meitu Imaging & Vision Lab）是美图公司致力于计算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品化落地的团队。美图AI开放平台由MTlab提供技术支持和保障。

产业ICCV 2019关键点估计目标检测

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

增强现实技术

增强现实，是指透过摄影机影像的位置及角度精算并加上图像分析技术，让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升，增强现实的用途也越来越广。

来源：维基百科

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

SSD技术

一种计算机视觉模型。论文发表于 2015 年（Wei Liu et al.）

来源：介绍文章

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

点估计技术

点估计也称定值估计，它是以抽样得到的样本指标作为总体指标的估计量，并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法

来源：MBA智库

YOLO技术

YOLO 模型最早是由 Joseph Redmon 等人在 2015 年发布的，并在随后的两篇论文中进行了修订。

来源：介绍文章

验证集技术

验证数据集是用于调整分类器超参数（即模型结构）的一组数据集，它有时也被称为开发集(dev set)。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

先验知识技术

先验（apriori ；也译作先天）在拉丁文中指“来自先前的东西”，或稍稍引申指“在经验之前”。近代西方传统中，认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验，比如，数学式子2+2=4；恒真命题“所有的单身汉一定没有结婚”；以及来自纯粹理性的推断“本体论证明”

来源：维基百科

阿里巴巴机构

阿里巴巴网络技术有限公司（简称：阿里巴巴集团）是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

来源：百度百科

模型优化技术

像卷积神经网络（CNN）这样的深度学习模型具有大量的参数；实际上，我们可以调用这些超参数，因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值，但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构，他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

来源：机器之心

目标检测技术

一般目标检测（generic object detection）的目标是根据大量预定义的类别在自然图像中确定目标实例的位置，这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法，并已经为一般目标检测领域带来了显著的突破性进展。

来源：机器之心

人脸检测技术

人脸检测（face detection）是一种在任意数字图像中找到人脸的位置和大小的计算机技术。它可以检测出面部特征，并忽略诸如建筑物、树木和身体等其他任何东西。有时候，人脸检测也负责找到面部的细微特征，如眼睛、鼻子、嘴巴等的精细位置。

来源：维基百科