2019/12/21 17:44

Xudong Liu等作者Panda编译

朋友圈变美靠AI：新型美颜技术实现细粒度颜值提升

爱美之心，人皆有之。使用美颜软件提升颜值已经成为很多人发布自拍照之前的常规操作。近日，ObEN 公司和西弗吉尼亚大学的一项研究提出了一种新型人脸美化技术，能够基于参照图像（通常是明星照片）的特征提升输入人脸（比如你的自拍）的颜值，从而让你也能变得与明星一样美。

图 1：表述为多对多图像转译问题的人脸美化：新提出的方法将基于风格的美颜表征与颜值预测模型整合到了一起，并能实现细粒度的控制。

在我们的社会生活中，人脸外观具有非常重要的作用。面孔迷人的人在他们的社会活动（比如约会和投票）中具有很多优势。研究已经发现，迷人的人成功约会的几率更高，而且相比于与不那么迷人的人约会，他们的伴侣更可能获得满足。研究还发现，人脸可以影响雇佣决策和投票行为。由于社会对美貌的狂热，面部不够迷人的女性可能遭受社交孤立、沮丧甚至心理疾病问题。由此造成的后果是，在物理世界（比如面部化妆和整形手术）和虚拟世界（比如美颜相机和滤镜）中，人们对人脸美化都有强烈的需求。

哲学家、心理学家和整形外科医生已经对人脸美化问题进行过广泛的研究。成像技术和社交媒体的快速发展极大加速了数字照片（尤其是自拍）在我们的日常生活中的普及。近期，计算机视觉社区也已经开发出了基于美妆应用或妆容迁移思想的虚拟人脸美化技术，其中包括 PairedCycleGAN、BeautyGAN、BeautyGlow。尽管这些已有的工作已经取得了出色的成果，但仅基于妆容迁移的人脸美化还存在一些根本性的局限性。这无法改变某些重要的人脸属性（比如形状和雀斑），通过图像到图像转译实现的妆容改变的应用只能在一定程度上提升颜值（beauty score）。

这篇论文的作者认为，要创造一种更加灵活和更有前景的框架，可通过一到多转译（one-to-many translation）来描述人脸美化的过程，其中可以使用很多不同的方式来定义目标。一方面，可通过根据给定的参照（具有较高的颜值）逐渐迁移所学习到的基于风格的美颜表征（beauty representation），以得到颜值单调增长的输出图像为目标。另一方面，还可通过学习一系列参照（比如有不同美颜风格的明星）得到多种不同的个性化美化结果。使用这种框架的人脸美化技术可以做得更加灵活——比如可以迁移参照图像的美颜风格，从而达到指定的颜值；这是妆容迁移技术无法实现的能力。

为了实现这一目标，研究者在这篇论文中提出了一种全新的生成对抗网络（GAN）架构。基于近期在基于风格的合成（比如 styleGAN）和基于数据的人脸颜值理解方面的最新进展，研究者提出将基于风格的美颜表征（提取自参照人脸）和颜值预测（在 SCUT-FBP 数据库训练得到）整合进人脸美化的过程中。更具体来说，基于风格的美颜表征将通过轻量卷积神经网络（LightCNN）从待美化和参照图像中提取，然后其会被用于引导风格迁移过程（实际的美化过程）。然后，研究者构建了一个整合了重建损失、美颜损失和身份损失函数的专用的基于 GAN 的架构。为了对美化过程有细粒度的控制，研究者还发明了一种简单但有效的重新加权策略，可逐渐提升合成图像的颜值，直到其达到目标水平（由参照图像指定）。

论文地址：https://arxiv.org/abs/1912.03630

这篇论文主要有以下贡献：

给出了对虚拟人脸美化的一种前瞻性看法，并提出了一种超越妆容迁移方法（比如 BeautyGAN 和 BeautyGlow）的整体式的基于风格的方法。研究者认为人脸颜值能为引导人脸美化过程提供一种定量的解决方案。
基于 LightCNN 的微调训练了一种人脸颜值预测网络，并将其整合进了新提出的基于风格的人脸美化网络中。这个预测模块能为合成模型提供很有价值的反馈，从而接近所需的颜值。
提出了一种搭载式的技巧，可同时从经过微调的 LightCNN 提取身份和美颜特征；另外还设计了多种损失函数，能够反映身份信息保留和人脸美化之间的权衡。
这是首个能得到有细粒度控制的人脸美化结果的研究成果（即能通过一系列人脸图像使颜值单调递增地接近参照图像）。
研究者也进行了全面的实验评估，结果表明：相比于 CycleGAN、MUNIT 和 DRIT 等当前最佳的图像到图像转译技术，新提出的方法表现更优。

新方法

人脸吸引力理论

人脸吸引力为什么很重要？从进化角度看，一个可信的有效假设是：灵长类动物对吸引力的判断的底层心理机制源自长期的进化和适应。更具体来说，人脸吸引力有利于选择配偶，进而促进基因传播。在最基本的层面上，人脸吸引力也可能反映了个体身体健康的信息。据此，在人脸吸引力研究方面的古典看法聚焦于一些直观浅显的属性，比如人脸对称性和潜在生物指标上的平均性。在现代文明历史中，评估人脸吸引力的社会惯例一直在不断变化，而且不同地区也各不相同（比如西方文化和东方文化之间就存在显著差别）。

尤其值得一提的是，年轻女性的人脸吸引力是一个趣味盎然的主题，长期以来广受欢迎的选美比赛就能说明这一点。实际上，之前已有科学家专门研究过女性人脸特征和男性的响应之间的关系（参考文献 [6]）。基于男性受试者给出的吸引力评分，该研究发现有两类人脸特征与吸引力分数正相关，比如大眼睛、小鼻子、小下巴以及突起的颧骨和较窄的脸颊。该研究还发现，人脸特征也可以预测人的个性和利他倾向。

本研究仅关注女性的人脸美化。

问题描述和动机

给定一张目标人脸（颜值普通）和一张参照人脸（通常是颜值高的明星的脸），我们可以如何迁移参照图像的相关信息来实现对目标人脸的美化。这样的人脸美化问题可以表述为两个子问题：风格迁移和颜值预测。另外，研究者还引入了另一个重要的新见解，即将人脸美化过程视为一个序列过程，其中目标人脸的颜值可通过连续的风格迁移步骤来逐步提升。随着细粒度的风格迁移的进行，被美化的目标人脸的颜值会单调递增，向参照人脸的颜值靠拢。

风格迁移是一个已被广泛研究的问题。近些年来，人们越来越关注提取基于风格的表征的思想（风格代码）。需要注意，妆容迁移只是风格迁移的一种特例，其中描述风格的只有局部特征而已（比如眼影和唇彩）。本研究提出了一种更通用的解决方案，可同时迁移参照图像的全局和局部风格代码。风格代码的提取将基于其颜值预测问题的解决方案。通过这样的方式在风格迁移和颜值预测之间共享所学习到的特征，让研究者实现了对美化过程的细粒度控制。

架构设计

如图 2 所示，A 和 B 分别表示目标人脸（低吸引力）和参照人脸（高吸引力）。美化的目标是将图像 A 转译为一张新图像 AB，其颜值与 B 的颜值相近百分之 Q（Q 是 0-100 之间的一个整数，指定了美颜迁移的细粒度）。假设图像 A 和 B 都可分解为包含风格与内容的两部分表征。也就是说，这两张图像都可通过两个编码器进行编码：内容（身份）编码器 E_c 和风格（美颜）编码器 E_s。为了将参照人脸 B 的美颜风格迁移到目标 A，很自然的做法是将基于内容（身份）的表征 C_a 和基于风格（美颜）的表征 S_b 连接起来；然后通过下式定义的专用解码器 G 重建美化后的图像 AB：

图 2 中的架构的其余部分主要包含两个组分：一个负责风格迁移的基于 GAN 的模块（G 搭档 D）和一个负责颜值预测的美颜和身份损失模块（参见图 3）。

图 2：新提出的网络架构的概况

其中 GAN 模块包含两个编码器、一个解码器和一个判别器；其作用是提取参照图像的美颜/风格表征，然后将其嵌入到目标图像中，以便执行美化。颜值预测模块则基于对现有的 LightCNN 的微调，见图 3。

图 3：用于颜值预测的微调网络

细粒度的美颜调整

为了对美化过程实现细粒度的控制，研究者提出了一个加权式美化方程：

其中 w_1 + w_2 = 1 且 0 ≤ w_1, w_2 ≤ 1.

图 4：细粒度美化调整的测试阶段

图 5 展示了新提出的细粒度美颜调整的效果。

总损失是这些损失的加权和。

图 5：通过控制美颜表征实现的美颜程度调整（最左一列是原始输入，从左至右：美化程度逐级提升）

损失函数

该方法使用了多种损失：图像重建损失、对抗损失、身份保留损失、美颜损失、感知损失。总损失是这些损失的加权和。

实验

表 1：对美化后图像的用户研究偏好

表 2：美化处理后的平均颜值

图 6：与基准模型的不同参照美化比较。最上面的图像是原始输入，最左边的是 5 张参照人脸，注意 CycleGAN 的输出都是一样的，没有参照图像的影响。

图 7：与基准模型的同样参照（图 6 中的参照 1）的美化比较

用户研究和颜值评估都表明了新提出的模型的优越性。而且新提出的模型也能稳健地处理存在模糊和高难度光照条件的低质量图像。但是，研究者也注意到当输入存在较大遮挡和姿势差异时，模型往往会产生一些可见的伪影。主要原因是对齐不好，即参照图像基本都是正脸图像，而较大遮挡和姿势差异会导致无法很好对齐。

理论美颜计算机视觉

相关数据

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

图像重建技术

通过物体外部测量的数据，经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用，显示人体各部分的图像，即计算机断层摄影技术，简称CT技术，后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

来源：百度百科

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

CycleGAN技术

GAN的一个变种

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

生成对抗技术

生成对抗是训练生成对抗网络时，两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

来源：wiki