2019/11/07 16:54

文永明作者中山大学硕士生学校

ICCV 2019 | 沉迷AI换脸？不如来试试“AI换衣”

引言

笔者最近发现一篇发表在 ICCV 2019 挺有意思的论文，是来自中山大学 Fashion 组、邢波 Petuum 公司、湾区字节跳动的工作。中山大学 Fashion 团队是由梁小丹老师和董浩业同学组织。近闻，梁小丹老师获得 2019 年吴文俊人工智能优秀青年奖、2019 年达摩院青橙奖最年轻获得者（奖金 100 万，仅 28 岁）。

他们分析了现存的“AI 换衣”方法都是只能将新衣服应用到固定的人体姿势上，不同姿势有较大的差异，而且无法保持一致性，常常丢失纹理特，因此效果都也不太好。

因此，他们首次提出一种针对不同人体姿势的换衣系统，也就是将人物图像，目标衣服图像，目标姿势作为输入，经过他们提出的多姿势引导的视觉试穿网络（MG-VTON）生成试穿效果，而且生成效果比目前的 state-of-the-art 方法的表现都要好。

笔者觉得还蛮有意思挺好玩的，强烈推荐你们试一试这篇论文的“AI 试穿“效果，他们的 demo 链接：http://m.fashion-ai.cn/。

模型架构

MG-VTON 通过操作衣服和姿势来学习合成视觉上的试穿效果，受 coarse-to-fine 的思想的启发，论文采用了一种轮廓由粗到细的策略，把主任务分为了三个子任务：条件解析学习，Wrap-GAN，细化渲染，如下图 Fig 1 所示 MG-VTON 的整体框架：

▲ Fig 1. MG-VTON的训练流程示意图

MG-VTON 就此可以分为三个阶段：

阶段一：首先，将参考人物图像分解成三个二进制掩码，分别是头发掩码、脸部掩码、身体形状，将三个掩码和目标衣服的图像以及目标姿势作为条件输入训练条件解析网络，从而得到预测的人物解析图。

阶段二：通过扭曲生成对抗网络 Warp-GAN 将扭曲后的衣服图像、去除了衣服的参考人物图像、目标姿势、人物解析图训练生成粗粒度的试穿结果。

阶段三：以扭曲后的衣服、目标姿势、粗粒度合成结果为条件输入，通过细化渲染网络得到细化后的图像结果。

具体流程和损失函数

条件解析网络

条件解析网络是基于条件生成对抗网络（CGAN）的设计的，条件解析网络与 CGAN 类似，其中输入条件为衣服图像 C、目标姿势 P、掩码 M，其中掩码 M 有三部分组成：头发掩码、脸部掩码、身体形状，训练生成人物解析图。

▲ Fig 2. 条件解析网络流程示意图

条件解析网络损失函数也与 CGAN 类似，并且加入 L1 损失进一步平滑生成的结果，为逐像素 softmax loss。最终最小化最大化损失为：

Warp-GAN

▲ Fig 3. Warp-GAN流程示意图

Warp-GAN 除了常见的对抗损失和 L1 正则化损失，还引入了感知损失用于衡量高维特征的距离，使得生成图片质量更高，看起来更逼真，表示为：

通过预训练好的 ϕ 将第 i 层特征映射到共享的高维特征空间去，将这样提取出的特征，作为目标函数的一部分，通过比较待生成的图片的特征值与目标图片的特征值，使得待生成的图片与目标图片在语义上更加相似（相对于像素级别的损失函数）。同时，参考了 pixp2pixHD [1] 引入了特征损失：

Warp-GAN 总的损失函数为：

细化渲染网络与几何匹配模块

▲ Fig 4. 细化渲染网络流程示意图

将 Warp-GAN 得到的粗糙的试穿效果和扭曲后的衣服图像以及目标姿势 P 输入到细化渲染网络里，通过细化渲染生成器学习针对多姿势的合成掩模，合成的细化渲染结果可以就变成了：

通过局部的增强的细化渲染能得到更好的柔性物体的纹理特征，细化渲染网络总的损失函数为：

而几何匹配模块就是学习如何把衣服扭曲的一个模块，学习映射的有着参数的 θ 的函数 T，几何匹配模块损失函数最小化：

其中和为原来的衣服掩码和生成扭曲后的衣服掩码。

实验效果

数据集

由于现成的针对 AI 试穿的数据集都是固定一个姿势的，例如 VITON [2] 和 CP-VTON [3]。因此，本文作者构建了一个名为 MPV 的数据集，从互联网上挑选了 35,687 张人物图像和 13,524 张衣服图像，每张人物图像都有着不同的姿势，分辨率为 256×192，提取 62,780 个穿着同一件衣服的同一个人的不同姿势的三元组。还是使用了数据集 DeepFashion [4]，里面是有着摆着不同姿势的同一个人，但是没有衣服图像。

评价标准

1. 使用了亚马逊劳务众包平台 AMT 来判断试穿的视觉效果的好坏。

2. 使用结构相似性 SSIM 评价指标来评价合成图片和真实图片的相似性，是一种全参考的图像质量评价指标。

3. 使用 IS 指标来衡量生成图片的生成质量和多样性。

结果分析

▲ Fig 3. MG-VTON与VITON、CP-VTON的对比

▲ Tab 1. 定量结果

在 MPV 和 DeepFashion 数据集中，SSIM 指标中 MG-VTON (w/o Render) 最高分，IS 指标中 MG-VTON (w/o Mask) 最好，从 Fig 3 来看，虽然 MG-VTON 比 MG-VTON (w/o Render) 以及 MG-VTON (w/o Mask) 的定量指标稍差一点，但是 MG-VTON 视觉效果最好。

▲ Fig 4. MPV上训练，DeepFashion上测试

在 MPV 上训练，在 DeepFashion 上测试，第一行是想要试穿的衣服和姿势估计，第一列是对应的人物图像，生成试穿效果都挺好的，能生成出不同动作姿势的试穿效果，不得不说细节纹理也处理的很好，因此应用价值高，可以应用得更广泛。

▲ Fig 5. 消融实验

消融实验里表明细化渲染网络中的掩码损失，感知损失，姿势状态，在 Warp-GAN 模块都起着至关重要的作用。

▲ Fig 6. 不同的人体解析质量得到的不同试穿效果

▲ Fig 7. 不同的人体解析质量得到的不同试穿效果

可以看出人体解析得越好，生成的试穿效果越好，证明了人体解析学习在 MG-VTON 中的作用。

总结思考

这篇论文的创新点在于首次研究了多姿势的视觉试穿系统，一改以往只能固定动作姿势的试穿模式，做了大量定量和定性实验证明了 MG-VTON 的系统方法由于目前的其他的先进的视觉试穿方法，论文结构清晰明了，易于理解，并且参考了大量可借鉴的先进性改进，内容充实。

参考文献

[1] T.-C. Wang, M.-Y. Liu, J.-Y. Zhu, A. Tao, J. Kautz, and B. Catanzaro. High-resolution image synthesis and semantic manipulation with conditional gans. In CVPR, 2018.

[2] X. Han, Z. Wu, Z. Wu, R. Yu, and L. S. Davis. Viton: An image-based virtual try-on network. In CVPR, 2018.

[3] B. Wang, H. Zhang, X. Liang, Y. Chen, and L. Lin. Toward characteristic-preserving image-based virtual try-on network. In ECCV, 2018.

[4] S. Q. X. W. Ziwei Liu, Ping Luo and X. Tang. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations. In CVPR, pages 1096–1104, 2016.

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论ICCV 2019计算机视觉损失函数

相关技术

相对熵深度学习

邢波人物

卡内基梅隆大学计算机科学学院教授，机器学习系副主任，专攻机器学习、计算生物学和统计方法等方向。他与合作者开发了Petuum平台，利用工作站、分布式计算机、移动设备或嵌入式设备来解决大型机器学习的问题。2016年11月，邢波创立Petuum公司，担任CEO和首席科学家。

来源：个人主页维基百科

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

网络流技术

在图论中，网络流（英语：Network flow）是指在一个每条边都有容量（capacity）的有向图分配流，使一条边的流量不会超过它的容量。通常在运筹学中，有向图称为网络。顶点称为节点（node）而边称为弧（arc）。一道流必须匹配一个结点的进出的流量相同的限制，除非这是一个源点（source）──有较多向外的流，或是一个汇点（sink）──有较多向内的流。一个网络可以用来模拟道路系统的交通量、管中的液体、电路中的电流或类似一些东西在一个结点的网络中游动的任何事物。

来源：维基百科

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

生成对抗技术

生成对抗是训练生成对抗网络时，两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

来源：wiki