作者在本文提出一种新的生成高质量图片的方法Auxililary Classifier GANs(简称AC-GANs)。AC-GANs算法的核心是:增加latent space和loss function的结构能合成更高质量的图片。我们先来看下AC-GANs的结构与一些之前的GAN变种:
AC-GANs算法的中心思想是每一个生成的样本都带有指定的类别。它的Generator(生成器,简称G),有两个输入,分别是噪音z与类别c。而Discriminator(判别器,简称D)分别给出生成样本来自于真实图片概率分布与类别的概率分布。它的目标函数是:
L_{S}=E[\log P(S=real \mid X_{real})]+E[\log P(S=fake \mid X_{fake})]
L_{C}=E[\log P(C=c \mid X_{real})]+E[\log P(C=c \mid X_{fake})]
D的目的是最大化Ls+Lc,而G是为了最大化Lc-Ls。AC-GAN能够有效利用class label的信息,不仅可以在G指定需要生成的image的label,同时该class label也能在Discriminator用来扩展loss函数,增加整个对抗网络的性能。
以上资料来自于论文Conditional Image Synthesis With Auxiliary Classifier GANs, https://arxiv.org/abs/1610.09585v4
发展历史
Ian J, Goodfellow等人自2014提出生成对抗网络(Generative Adversarial Nets,简称GAN)以来,GAN一直是AI方向十分火热的课题。GAN主要由两部分构成:generator和discriminator,generator主要是从训练数据中产生相同分布的samples,而discriminator 则是判断输入是真实数据还是generator生成的数据,discriminator采用传统的监督学习的方法。
由于第一版的GAN训练十分不稳定,Alec Radford等人在2015年提出了新的GAN框架DCGAN,DCGAN可以说是完全手动调出来的结构,具体的结构为:在D于G中除了最后一层,都运用Batch normalization层;使用stride为2的Deconvolution层;使用Adam优化器而不是SGD。后来很多GAN你相关的应用于方法都是基于DCGAN的结构
Xi Chen 在2016年提出InfoGAN。这是一种可以学习disentangled representation 的GAN。Disentangled representation可以类比为人脸的信息,例如朝向,面部情感,发型等。它能在无监督学习下学习出这些disentangled representation。
AC-GANs为本词条所解释内容。
如果对GAN感兴趣,这里有个关于各种关于GAN的paper的统计,可以去看一下:AdversarialNetsPapers
主要事件
年份 | 事件 | 相关论文/Reference |
2014 | 首次提出GAN概念 | Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680). |
2015 | 提出更稳定的GAN训练框架 | Radford, A., Metz, L., & Chintala, S. (2015). Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434. |
2016 | 提出可以学习部分特征的GAN | Chen, X., Duan, Y., Houthooft, R., Schulman, J., Sutskever, I., & Abbeel, P. (2016). Infogan: Interpretable representation learning by information maximizing generative adversarial nets. In Advances in neural information processing systems (pp. 2172-2180). |
2016 | 在GAN中增加图像的类别来加强对抗能力,提高输出图片质量 | Odena, A., Olah, C., & Shlens, J. (2016). Conditional image synthesis with auxiliary classifier gans. arXiv preprint arXiv:1610.09585. |
发展分析
瓶颈
GAN最主要的问题是收敛问题与不稳定性,训练GAN需要达到纳什均衡,有时候可以用梯度下降法做到,有时候做不到.我们还没有找到很好的达到纳什均衡的方法,所以训练GAN相比VAE或者PixelRNN是不稳定的。GAN存在训练不稳定、梯度消失、模式崩溃的问题,而且不适合处理离散形式的数据,比如文本。
未来发展方向
与GAN相关的题目这几年依旧很火爆,它采用的是一种无监督的学习方式训练,可以被广泛用在无监督学习和半监督学习领域。在一些场景应用上突出了它的有点,例如图像风格迁移,超分辨率,图像补全,去噪,避免了损失函数设计的困难。
Contributor: Zhixiang Chi