深度学习大讲堂转载

2018/05/08 19:09

刘偲作者

让机器“析毫剖厘”：图像理解与编辑|VALSE2018之三

编者按：李白在《秋登宣城谢脁北楼》中曾写道：

“江城如画里，山晓望晴空。
两水夹明镜，双桥落彩虹。”

通过对视野内景物位置关系的描写，一幅登高远眺的秋色美景图宛在眼前。而在计算机视觉领域，这几句诗其实体现了场景内物体之间的关系，对于场景理解的重要性。

今天，来自中科院信息工程研究所的刘偲副研究员，将从生成对抗网络（GAN）讲起，讲述如何通过对场景内物体及物体之间关系的梳理，让机器“析毫剖厘”，以实现对场景的理解以及对图像的编辑。

文末，大讲堂提供文中提到所有参考文献的下载链接。

图像理解与编辑涉及两方面的内容：首先获取图像中蕴含的丰富信息，然后按照需求对图像进行编辑。下图展示了图像理解问题的具体示例，对于某个场景，我们提取图像中的背景，如墙壁、桌椅等物体的信息，也可以解析图像中的重要元素——人，即对人的身体、服饰等部件进行分类、分割，进一步的还可对人脸进行解析，定位头发、五官等部位。图像理解与编辑具有广泛的应用场景，比如自动驾驶、娱乐产品、视频监控和增强现实等方面。

本文将主要介绍以人为主体目标的图像理解与编辑任务。首先介绍人脸编辑。在图像编辑方面，生成对抗网络(GAN)发挥着重要的作用，所以这里首先介绍一下GAN的基本原理以及当前的主要发展方向。GAN由Ian Goodfellow在2014年提出，采用了两个网络相互对抗的训练模式，已成为生成模型中里程碑式的工作。GAN包含生成网络G和判别网络D，G生成数据，D判断数据是否来自真实的数据。在训练时，G尽可能生成的数据迷惑D，而D尽可能区分出数据是否来自真实的分布，通过这种对抗式学习，模型最终能够生成非常真实的图片。这一工作也得到了Yann Lecun的高度评价，被其称为近十年来机器学习领域中最有趣的想法之一。

从2014年GAN的提出，实现了从噪声生成图片功能后，生成对抗网络的研究方向越来越多。原始的GAN只是从随机噪声生成图像，缺少对生成图片的控制，所以紧随其后就有研究者提出了Conditional Generative Adversarial Nets。其通过改变输入条件，可以控制图片的生成结果。同时，以DCGAN为代表的一系列工作探索了适用于GAN的网络结构。也有研究者为了解决模式坍塌等问题，提出了更多的网络形式进行对抗学习的研究，如GMAN。修正GAN的对抗损失函数的工作也在一直进行中，WGAN是其中非常引人瞩目的工作。此外，要拟合真实数据背后的分布度量，常常需要对D网络进行正则化， SN-GAN提出的谱归一化是其中的代表性工作，其可在IMAGENET数据库上训练成功，生成1000类的图像。最后，提高大图像的生成质量也是GAN的一个重点的研究方向。英伟达提出的PG-GAN即是这样的工作，可以生成1024x1024的高清真实图像。

总而言之，GAN由最开始的随机噪声生成图片，逐渐在众多领域得到发展。有研究者使用GAN研究半监督学习问题，也有研究者进行图像到图像的生成探索，如给定轮廓图生成正常的图片，另外还有文本到图像的生成以及域自适应任务。域自适应任务旨在提升模型对跨域数据的泛化能力，如在一个数据集上训练好图像分析的模型，通过域适应的方法，在其他不同的数据集上仍然能够表现出较强的能力。此外还有人用GAN来做对抗样本的攻防，旨在解决生成模型的正确性和安全性的问题。

基于GAN，在人脸图像编辑方面，我们课题组主要进行了智能美妆方面的研究，属于图像到图像的生成领域的探索。首先我们构建了一个较大的美妆数据库，包括东方风格和西方风格的子数据库。东方风格包括复古妆、韩妆、日妆、素颜和烟熏妆，西方风格包括彩妆、素颜和烟熏妆。如图所示，每种妆容都有明确的定义。

除数据库外，我们基于生成对抗网络对智能美妆模型做了一定的改进，这项工作目前还在进行中。具体包括两方面改进，第一基于大规模的人脸数据库辅助生成更高质量的美妆图像，目前是基于20万张的celebA人脸图像数据，选取包括是否为浓妆在内的总共三个人脸相关的属性，利用粗标注数据库完成智能美妆任务的辅助训练，从而使美妆属性的编辑更加细致。此外我们提出了新的网络结构。因为人脸编辑任务更多是人脸的微调，希望化完妆人的身份信息保持不变，我们的网络强调保持妆前妆后基本一致，更好的保持了图像的主体信息，更专注地编辑妆容条件。

观察实验结果，各种妆容的编辑结果比较真实、自然，没有明显的网格。各种妆容的特点也比较明显，如亚洲风格妆容中复古妆的腮红、韩妆渐变的咬唇妆，比较淡的日妆以及特征明显的素颜和烟熏妆，同样欧美风格的妆容也有较好的编辑效果。值得一提的是，由于素颜类别的存在，我们的方法也可以实现卸妆的功能。

针对人脸编辑的另一个应用是人脸老化。下图中间是当前给定图片，通过人脸老化算法可以生成7个不同年龄段的人脸图像，即可以变年轻如10岁以下，也可以变老如一直到60岁以上。它的应用很广泛，比如可以辅助跨年龄段的人脸识别。身份证照片常常是很多年前拍摄的，长时间没有更新导致人证对比存在一定的难度，那么此时人脸老化的就可以辅助身份证的人证识别。另外比较有用的应用是寻找丢失的儿童，比如小孩走丢了，只有他很小的照片，人脸老化可以辅助生成长大后的样子，我们希望可以通过这样的算法，能够实现跨年龄的身份识别。此外人脸老化编辑还可以应用到互动娱乐应用中。

我们提出的方法也是基于GAN的。在传统的conditional GAN的基础上，我们综合考虑了不同年龄段人脸的形状和纹理变化。具体实现细节可参考我们的相关论文。下图是我们的结果，第一列是原始图片，右边七列分别是不同年龄条件下的生成结果。可以看到年龄较小时，脸型都相对较小，皮肤也很光滑，而从30岁到60岁，胡子越来越白，同时会出现鱼尾纹或者皱纹。例如第四行输入是一个老太太，模型能够生成她比较小的样子，皮肤非常光滑，同时很像这个人。

接下来介绍整个框架第二部分，就是人的部分。人体解析定义是这样的，给定一张图，去解析人的头发、人脸、胳膊（手）等部位，以及上衣、裤子、鞋等衣着。人体解析的相关工作非常多，由于篇幅限制不再详细说明。而数据集方面主要是中山大学发表在CVPR2017上的Look into person，它应该是目前最大的人体解析数据库。

我们在人体解析方面的最新研究是有关跨域人体解析。因为比如想在多个城市建立图像分析系统，不可能在每个场景都标注很多数据，但是不同应用场景很多条件确实不一样。所以我们希望一旦建立了较好的模型，通过跨域的方法，该模型放在其他的特定场景中也可以使用。比如数据库标了很细致像素级的分类，这些库姿态多变，光照很多，数据量大。我们在实际应用的时候，比如想应用在室内餐厅，或者室外街道，这种情况下重新标注数据的代价是非常大的，而直接使用预先训好的模型效果又不是特别好。我们想研究的就是已经训练好的模型怎么使用。

跨域学习是近年来的一个研究热点，相关论文很多。比如，Ganin等人提出了一种新的基于深度网络结构的方法来做域变换，该方法促进网络学习一种深度特征：既能对主要的学习任务上得到区分，又能在不同域之间达到一致。MY Liu等人提出了一个耦合生成对抗网络(coupled generative adversarial network, CoGAN)来学习关于多个域图片的联合分布。Long等人提出的一种新的深度变换网络框架，通过MK-MMD将适应于特定任务的深度特征进行变换，而Chen等人提出了对抗姿态网络，潜在地考虑到了人物的结构。

当前已经存在的域变换方法，都是单一考虑特征变换或者简单地考虑结构性的标签变换，而我们同时考虑了特征变换和结构性的标注变换。首先一方面，每个域的特征空间是不同的。例如餐厅中的图片光照比室外中的光照要暗很多，监控图片的视角和手持相机拍摄也是不同。因此我们通过对抗特征变换最小化这种差异。然后另一方面源域和目标域中的人物都有着固有的相同点，例如人体部件的关系大概是相同的，左右胳膊、腿分布在身体的两侧等。因此我们通过对抗式结构标签变换来最大化这种共性。

最后一个任务是综合考虑到人和场景。今年ECCV的一项竞赛就是我们和奇虎360公司以及新加坡国立大学（NUS）一起举办的。比赛的主要任务还是集中于人这一目标，希望能够获取图像中最重要的元素——人的信息。

Person In Context (PIC) 2018 （http://www.picdataset.com/）将于2018年9月9日在德国慕尼黑的ECCV 2018的workshop "1st Person in Context (PIC) Workshop and Challenge" 上举办。我们从真实场景收集了约1.5万张图像，平均每张图包含4个人。这些图像包含复杂的人的姿态、丰富的拍摄视角、不同程度的遮挡和图像分辨率。每一张图片都包含了人和物体像素级别的语义分割、场景分割以及人和人/物体的关系标注。在客观世界不计其数的类别中，人是最特殊的一类。因此本竞赛在任务设定过程中，着重考量了以人为中心的关系分割 (relation segmentation)。传统的关系预测，比如Visual Genome，以及Google 的Open Image Challenge 的关系都是定义在矩形框(bounding box)上的。PIC竞赛的特别之处是，其关系是定义在分割区域(segmentation)上的。

以人为中心的关系分割包括该人的和周围物体的动作关系、位置关系等。以左图为例，人A在人B的旁边。再比如右图，人A在人C的后面。关系分割的形式是<主语，关系，宾语> 形式的三元组。值得一提的是，关系都是建立在人和物体的场景像素级别分割之上的。

以下为数据库的标注展示，可以看到该数据库涵盖了丰富的全景分割和关系分割。

上图是PIC跟现有数据库的区别。Visual Genome是知名的关系数据库。其关系是定义在bounding-box上，PIC库的关系是定义在像素级别的分割之上。这种更细粒度的标注，使得定义的关系更为精确，也更符合实际应用的要求。

我们竞赛时间安排及竞赛信息如下，同时我们还提供了众多显卡作为竞赛奖品。冠军队伍可以获得2块TitanV 显卡。

总结一下，我们的工作由小及大，包含了人脸，人以及人-物关系三个层面的内容。我们会在这些领域继续进行探索。

文中提到参考文献的下载链接为：

https://pan.baidu.com/s/1L-zbu8Sbtcf1mou2DYhjhg

密码：1282

深度学习大讲堂

高质量原创内容平台，邀请学术界、工业界一线专家撰稿，致力于推送人工智能与深度学习最新技术、产品和活动信息。

入门图像理解与编辑计算机视觉GAN

相关数据

增强现实技术

增强现实，是指透过摄影机影像的位置及角度精算并加上图像分析技术，让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升，增强现实的用途也越来越广。

来源：维基百科

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

半监督学习技术

半监督学习属于无监督学习（没有任何标记的训练数据）和监督学习（完全标记的训练数据）之间。许多机器学习研究人员发现，将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理（例如转录音频片段）或物理实验（例如，确定蛋白质的3D结构或确定在特定位置处是否存在油）。因此与标签处理相关的成本可能使得完全标注的训练集不可行，而获取未标记的数据相对便宜。在这种情况下，半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣，也是人类学习的典范。

来源：Wikipedia

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

规范化技术

规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0 到1.0 或0.0 到1.0。通过将属性数据按比例缩放，使之落入一个小的特定区间，如0.0到1.0，对属性规范化。对于距离度量分类算法，如涉及神经网络或诸如最临近分类和聚类的分类算法，规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘，对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法，规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比，权重过大。有许多数据规范化的方法，包括最小-最大规范化、z-score规范化和按小数定标规范化。

来源：Jiawei Han;Micheline Kamber著数据挖掘概念与技术机械工业出版社

关系数据库技术

关系数据库，是创建在关系模型基础上的数据库，借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的，并配合“科德十二定律”。现如今虽然对此模型有一些批评意见，但它还是数据存储的传统标准。

来源：维基百科

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本，它们看上去与真实样本的几乎相同（无法用肉眼分辨），但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

来源：Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

WGAN技术

就其本质而言，任何生成模型的目标都是让模型（习得地）的分布与真实数据之间的差异达到最小。然而，传统 GAN 中的判别器 D 并不会当模型与真实的分布重叠度不够时去提供足够的信息来估计这个差异度——这导致生成器得不到一个强有力的反馈信息（特别是在训练之初），此外生成器的稳定性也普遍不足。 Wasserstein GAN 在原来的基础之上添加了一些新的方法，让判别器 D 去拟合模型与真实分布之间的 Wasserstein 距离。Wassersterin 距离会大致估计出「调整一个分布去匹配另一个分布还需要多少工作」。此外，其定义的方式十分值得注意，它甚至可以适用于非重叠的分布。

来源：机器之心 Wasserstein GAN