全球计算机视觉三大顶会之一 ECCV 2018 (European Conference on Computer Vision)即将于9月8 -14日在德国慕尼黑拉开帷幕。届时,旷视首席科学家孙剑博士将带领团队远赴盛会,助力计算机视觉技术的交流与落地。而在此之前,旷视科技将陆续推出 ECCV 2018 接收论文系列解读。本文是第 9 篇,一种通过学习局部单应变换实现人脸校正的全新方法——GridFace。
论文名称:《GridFace: Face Rectification via Learning Local Homography Transformations》
论文链接:https://arxiv.org/abs/1808.06210
导语
大千世界之中,人脸可谓是机器视觉识别技术的“第一号”目标,人脸识别顺理成章成为人工智能领域抢占的技术高地;在这场最为激烈的机器视觉技术制高点的争夺战中,人脸识别技术不断突破向前,甚至赶越人类水平。但是,在不受限环境中,人脸识别仍不能万无一失,尤其是在人脸几何变形的情况下。
有鉴于此,旷视科技创新性地提出 GridFace,通过学习局部单应变换减少人脸变形,提升识别性能。一句话,先校正,再识别,过硬的校正技术使得人脸识别性能得到显著提高。相关实验结果已证明该方法的有效性和高效性。这一原创技术将进一步强化旷视科技攻克四大识别目标(人、脸、车、字)的能力,有利于补足 AI 原创技术矩阵,达成 AI+IoT 闭环战略,持续为数字经济发展提供新动能。
图 1:GridFace人脸校正实例
背景
尽管深度学习在学界、业界均已获得重大进展,但是依然无法声称,人脸识别技术的应用落地毫不受限。自然场景中,人脸识别面临的现有挑战之一是人脸几何变形(facial geometric variations)。人脸在角度和对齐方面(由人脸检测边界框定位引入)的变形将从根本上影响人脸的表征和识别的性能。
解决这一问题的常用方法之一是通过 2D 变换把人脸关键点标定到预定义模版(即 2D 平均人脸关键点或者 3D 平均人脸模型);但是这种预处理方法并不是针对识别优化的,并严重依赖手工调节的参数和精确的人脸关键点。
为此,近期一些工作借助空间变换网络(Spatial Transformer Network/STN)实现端到端优化,可以兼顾人脸对齐和检测/识别。但是,通过 STN 学习的变换使用整体参数模型,只能捕捉一些粗糙的几何信息,比如人脸定向,并有可能校正结果的明显扭曲。
设计思想
有鉴于此,本文提出一种全新的方法,称之为 GridFace,以减少人脸几何变形,提升识别性能。如图 2 所示,该系统包含两个模块:校正模块和识别模块。
图 2:GridFace 图示
在校正模块中,研究者通过一个人脸校正网络评估一组局部单应变换(local homography transformations),以校正输入的人脸图像。研究者还通过一组可变形平面单元近似 3D 标准人脸形状。当输入一张带有几何变形的人脸,评估其局部单应变换,以分别建模每个单元的扭曲。为鼓励生成标准的视角,研究者加入一个基于标准视角人脸分布的正则化。这一自然的人脸分布并未被显式建模。
相反,受到先前工作的启发,研究者通过一个降噪自编码器(Denoising Autoencoder)评估概率密度对数的梯度。识别模块把已校正的图像作为输入,并通过度量学习学习可判别性表征。
本文首先给出了这一方法的定量和定性结果,并在 4 个颇具挑战性的公开基准 LFW、YTF、IJB-A 和 Multi-PIE 上进行评估。相较于最新的人脸转正和识别工作,该方法在所有基准上取得了当前最优或者颇具竞争力的结果。本文贡献总结如下:
1.通过减少带有局部单应变换的人脸几何变形,本文提出一种提升人脸识别性能的全新方法。
2.本文引入一个人脸标准先验和一个基于近似方法的降噪自编码器以正则化人脸校正,完善校正质量。
3.在受限和不受限环境中开展的扩展实验证明了该方法的优越性。
方法
另 I^X,I^Y 表示原始图像和校正图像。把原始图像 I^X 的坐标系作为原始坐标系,校正图像 I^Y 中的坐标系作为校正坐标系。另 p=和 q= 表示原始坐标系和校正坐标系中的点。通过 p̂ 和 q̂ 分别把单应坐标系表示为 p̂=和 q̂=。在不损失通用性的前提下,研究者假设像素的坐标系被归一化为 [0, 1) × [0, 1)。
概述
如上所述,GridFace 包含两个部分,校正模块和识别模块。在校正过程中,带有参数 θ 的校正网络 f_θ 通过非刚性图像扭曲把原始的人脸图像 I^X 映射到校正图像 I^Y。接着,识别网络 g_φ 由基于校正图像 I^Y 的度量学习训练。标准视角下的自然人脸分布被作为正则化引入训练,用以鼓励标准视角的人脸校正。
人脸校正网络
不同于最近的人脸转正技术从抽象特征中生成人脸,本文把校正过程定义为从原始图像到校准后的标准图像的像素扭曲,如图 3 所示。
图 3:局部单应变换
研究者通过把校正图像分割成 n^2 个非重叠单元以定义模版 Q:
对于每个单元,研究者通过评估局部单应矩阵 计算原始图像中相应的可变形单元。具体而言,单应矩阵可写为:
校正网络把原始图像 I^X 作为输入,并预测 n^2 个残差矩阵 。接着,获得单元的校正图像 I^Y,同时单应矩阵 可写为:
其中 p̂ 和 q̂ 是 p 和 q 的单应坐标系。
把每一单元 的角点集合用 C 表示为 。由于分别评估所有的局部单应矩阵,校正图像中的一个单元角点被映射到原始图像中的多个点(见图 3)。为避免 I^X 中相邻单元的边界之间出现较大的不一致性,研究者进一步引入一个软约束,称之为可变形约束 L_de。具体而言,另 M_i 表示原始图像中 c_i 坐标系的集合;接着添加一个软约束 ,从而把 M_i 中每一对点之间的一致性强化为 。研究者把这一软约束并入学习目标,并作为校正网络的可变形损失函数:
降噪自编码器正则化
正则化鼓励校正过程生成标准视角的人脸。研究者将其定义为一个图像先验,它直接基于自然图像的标准视角人脸分布 P_Y:
一般来讲,这一优化至关重要。研究者没有明确地建模这一分布,而是考虑的梯度,并通过随机梯度下降最大化它:
借助于用于图像生成和复原的先前结果,研究者把先验梯度近似为
这里,(,)是在真实数据分布 P_Y (本文的标准视角人脸)上训练的最优降噪自编码器。借助这些结果,研究者通过在标准视角人脸数据集上训练一个降噪自编码器 h_ω 来优化公式 5,接着通过公式 7 评估反向传播中已近似的梯度。
人脸识别网络
给定校正人脸 ,研究者利用深度卷积识别网络 g_φ 提取人脸表征 。按照先前工作,研究者使用三元组损失函数(triplet loss)训练识别网络。另 表示 3 张图像,形成一个人脸三元组,其中 和 来自同一个人,来自另外一个人。识别损失函数如下:
其中 是特征表征 x 和 y 之间的欧几里得距离。超参数 α 控制三元组损失函数之内人内距离和人间距离之间的余量(margin)。
总结一下,研究者通过最小化一个目标联合优化校正网络和识别网路,包括一个可变形项,一个识别项和一个正则化项:
实验
GridFace 所使用的数据集是社交网络人脸数据集(Social Network Face Dataset/SNFace),它包含大约 10M 张图像和 200K 张人脸。在本文的所有实验中,研究者使用 GoogLeNet 作为识别网络,校正网络基于一个修改的 Inception 模块。降噪自编码器基于一个卷积自编码器架构而设计。网络细节请见表 1:
表 1:网络细节
人脸校正
本文所有方法的评估均在 SNFace 测试集上,研究者对比了若干个同类方法:baseline 模型没有人脸校正;全局模型 Grid-1 通过全局单应变换实现人脸校正;没有人脸先验正则化的模型 Grid-8\reg 在训练期间没有正则化。
进而,为了对比在人脸识别技术中使用的 3D 人脸转正技术,研究者借助一项近期的人脸转正技术(Hassner et al.)处理整个 SNFace 数据集以合成正面视角,并与这一在合成数据上(称之为 baseline-3D)训练的模型对比,以验证本文方法人脸校正和联合优化的有效性。
图 4:SNFace 测试集的定量分析
表 2:SNFace 测试集的定量结果
图 5:合成 2D 变换
表 3:合成 2D 变换之下的定量结果
评估结果
为验证已学习模型的跨数据泛化能力,研究者在 4 个挑战赛公开基准上做了实验,即 LFW,YTF,Multi-PIE 和 IJB-A,它们涵盖大角度、表情以及光照变化情况下的人脸校正。
图 8:GridFace 在公开基准上的定性结果。左上:LFW;左下:YTF,右上:IJB-A,右下:Multi-PIE。
表 4:LFW 和 YTF 评估结果
表 5:Multi-PIE 评估结果
表 6:IJB-A 评估结果
结论
本文开发出一种称之为 GridFace 的方法,以减少人脸几何变形。借助局部单应变换,研究者提出一种全新的非刚性人脸校正方法,并通过把降噪自编码器应用于自然的正面人脸分布来正则化它。实验结果表明该方法可大幅降低人脸变形,提升识别性能。
参考文献
lAlain, G., Bengio, Y.: What regularized auto-encoders learn from the data- generating distribution. The Journal of Machine Learning Research 15(1), 3563– 3593 (2014)
lJaderberg, M., Simonyan, K., Zisserman, A., et al.: Spatial transformer networks. In: Advances in Neural Information Processing Systems 28. pp. 2017–2025 (2015)
lS ̈arela ̈, J., Valpola, H.: Denoising source separation. Journal of machine learning research 6(Mar), 233–272 (2005)
lChen, D., Hua, G., Wen, F., Sun, J.: Supervised transformer network for effi- cient face detection. In: European Conference on Computer Vision. pp. 122–138. Springer (2016)
lZhong, Y., Chen, J., Huang, B.: Toward end-to-end face recognition through align- ment learning. IEEE Signal Processing Letters 24(8), 1213–1217 (Aug 2017). https://doi.org/10.1109/LSP.2017.2715076