2019/01/23 15:04

GAN之父5篇文章细数GAN在人脸生成方向4年多进展

[ 导读 ]生成式对抗网络(Generative Adversarial Networks， GAN）自在2014年被Ian Goodfellow提出后，取得巨大的进展，在理论算法和应用方面有着丰富成果。近日，GAN之父Ian Goodfellow在twitter谈论了关于GAN在人脸生成的4年半进展，包含5篇代表性文章，值得关注，人脸生成从早起的模糊阶段进化到现在逼真的程度。

GAN在人脸生成这4.5年进展

GAN在人脸生成的进展代表性论文包括5篇，分别是：

1. Generative Adversarial Networks

https://papers.nips.cc/paper/5423-generative-adversarial-nets
谷歌学术引用数高达6800+

这篇论文是最早提出 GAN 的文章，作者 Ian J. Goodfellow 提出了一种新的对抗过程来评价生成模型的效果。GAN 主要分为两部分：生成模型和判别模型。生成模型的作用是模拟真实数据的分布，判别模型的作用是判断一个样本是真实的样本还是生成的样本，GAN 的目标是训练一个生成模型完美的拟合真实数据分布使得判别模型无法区分。

生成模型和判别模型之间的交互可以类比为这样一个场景：生成模型是一个生产假币的伪造者，他的任务就是要生成假币然后使用假币而不被发现，判别模型则是一个警察，他的任务则是识别出那些假币，两者之间的较量使得伪造者不断提升制造假币的能力，警察不断提升识别假币的能力，最终警察无法区分伪造者生产的假币和真实的货币。

2. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

https://arxiv.org/pdf/1511.06434.pdf

近年来，使用卷积神经网络的监督学习被大量应用于计算机视觉应用中。相对地，使用卷积神经网络的非监督学习则被较少的关注。在这项工作中，我们希望可以帮助缩小监督学习和非监督学习在CNN的成功上差距。我们介绍了CNN的一个类，称为深度卷积生成对抗网络（DCGANs），这个网络有着明确的结构约束，并且表明他们对非监督学习有着强烈的可信度。在不同的图像数据集上训练，我们展示出了令人信服的证据，我们的深度卷积对抗对，从对象部分到场景，在生产器和判别器上都能学到层级的表示。此外，我们在一些新的任务上使用学习到的特征，表明了它们在一般化图像的表示上具有通用性。

3. Coupled Generative Adversarial Networks

https://arxiv.org/pdf/1606.07536.pdf

作者提出了一个coupled generative adversarial network (CoGAN) 来学习关于multi-domain images的联合分布出来。本质上GAN是学习一个图像分布p(x’)出来，这个分布要足够逼近训练样本的分布p(x)。这样的结果就是能够使我们任意输入噪声到训练好的generator中去，都能够产生一个足够像训练样本的图片出来。而这里作者将单个分布p(x)拓展到联合分布p(x,y)分布上来了。这样做的目的很深刻，因为涉及到domain adaption 问题。也就是说，在传统的domain adaption中，我们需要学习或者训练一个domain adaptor出来，而这个domain adaptor需要用source domain和对应的target domain的训练图片来训练。而本文中的CoGAN可以无监督的学习一个联合分布。方法就是对网络加上权值共享约束，同时求解一个体育编辑分布的内积的分布解(不是很懂)。作者测试这个CoGAN做联合分布学习的任务，包括学习图片的颜色和深度两个的联合分布，学习一个带有不同属性的联合分布出来。作者将其拓展到了domain adaption和image transformation task。

4. Progressive Growing of GANs for Improved Quality, Stability, and Variation

论文地址：
http://research.nvidia.com/sites/default/files/publications/karras2017gan-paper-v2.pdf
实现地址：
https://github.com/tkarras/progressive_growing_of_gans

英伟达在本文中描述了一种新的 GAN 训练方法，其核心思想是同时逐渐地增加生成器与鉴别器的能力：从低分辨率开始，添加持续建模精细细节的新层作为训练过程。这不仅加速了训练，而且更加稳定，获得质量超出预想的图像。本文同时提出了一种增加生成图像变体的简便方法，并在 CIFAR10 上取得了 8.80 的得分。另外的一个额外贡献是创建 CELEBA 数据集的更高质量版本。

项目地址：
https://github.com//RedditSota/state-of-the-art-result-for-machine-learning-problems

5. A Style-Based Generator Architecture for Generative Adversarial Networks

https://arxiv.org/abs/1812.04948

这篇论文于 2018 年 12 月 12 日被收录。作者们确认论文中所提出的方法的代码，不久后就会对外发布。此外，对于想要了解更多关于这一方法的信息但不想阅读全篇论文的读者，前两天发布的一篇博文对这篇论文进行了概述，大家可前往如下地址查看：

这篇论文针对 GAN 框架提出了另一种观点。更特别地，它从样式—迁移设计中汲取灵感，创建了一个生成器架构，它能学习生成图像中的高级属性（例如在人脸或者背景上训练时的年龄、身份，质量差的图像的拍摄视角、样式）以及随机变量（人脸的雀斑、头发细节或者在质量差的图像上训练时的发色、皮肤纹理）。该生成器不仅能学习自动分离这些属性，还能让研究者用非常直观的方式控制合成。

GAN最新综述论文

来自郑州大学等学者最新发表一篇综述论文，详述GAN在计算机视觉方面的进展，欢迎查看！

摘要

生成对抗网络的出现为计算机视觉提供了一种新的方法和框架。与传统的机器学习算法相比，GAN采用的是对抗性训练的思想，在特征学习和表示方面都更加强大。GAN还存在一些问题，如不收敛、模型崩溃和高自由度的不可控性。如何将GAN理论进行改进，并将其应用于计算机视觉相关任务中，已经引起了广泛的研究。本文系统地综述了近年来提出的GAN模型及其在计算机视觉中的应用。特别地，我们首先回顾了生成算法的历史和发展，GAN的机理，它的基本网络结构和原始GAN的理论分析。然后从机理、生成样本的视觉结果、Frechet初始距离等方面对经典的GAN算法进行了综合比较。通过在公共数据集上进行的大量实验，从网络结构、性能和适用性方面对这些网络进行了进一步的评估。在此基础上，研究了GAN在计算机视觉中的几个典型应用，包括高质量的样本生成、风格转换和图像转换。最后，总结和讨论了氮化镓存在的一些问题，并对未来可能的研究课题进行了展望。

参考链接：

https://blog.csdn.net/carrierlxksuper/article/details/60479883
https://blog.csdn.net/liuxiao214/article/details/73500737
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8576508

THU数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

理论GANIan Goodfellow人脸生成

相关数据

非监督学习技术

非监督式学习是一种机器学习的方式，并不需要人力来输入标签。它是监督式学习和强化学习等策略之外的一种选择。在监督式学习中，典型的任务是分类和回归分析，且需要使用到人工预先准备好的范例(base)。一个常见的非监督式学习是数据聚类。在人工神经网络中，自组织映射（SOM）和适应性共振理论（ART）则是最常用的非监督式学习。

来源：Wikipedia

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

判别模型技术

在机器学习领域，有一种分类方法将模型分为判别模型和生成模型（generative model）两种。判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法，是一种基于概率理论的方法。已知输入变量x，判别模型通过构建条件概率P（y|x）分布预测结果，或试图直接从输入x的空间学习映射到标签{0,1}（如感知器算法）的函数。生成模型则是考虑x与y之间的联合分布。在实际应用中判别模型非常常见，如：逻辑回归（logistic regression），支持向量机（support vector machine），提升方法（Boosting），条件随机场（conditional random fields），神经网络（neural network），随机森林（random forests）典型的生成模型则包括：高斯混合模型（Gaussian Mixture Model），隐马尔科夫模型（hidden markov model），简单贝叶斯（naive Bayes）等。不难看出两者的区别。

来源：Wikipedia

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks