模态正则化生成对抗网络在常规生成对抗网络的基础上引入了两个正则项——几何量度正则和模态正则,分别针对模型训练的不稳定性和模态退化问题。
几何量度正则:
从优化的角度看,监督学习的目标函数比GAN生成器的目标函数更稳定。而两者的差别也是很明显的,GAN生成器的优化目标是一个经过训练的分辨器,而监督学习模型的优化目标是距离函数,具有很好的几何特质。后者往往能够提供更易于训练的梯度,尤其在训练的早期阶段。因此,模态正则化生成对抗网络在分辨器的目标函数中引入监督学习信号作为几何量度正则项。也就是说,除了生成器G(z): Z→X,同时还需要训练一个编码器E(x): X→Z。 假设d为某个数据空间中的距离量度,定义下式为几何量度正则项:
引入编码器就相当于首先在两个数据集(真实数据和生成数据)之间训练一个点对点的映射G(E(x)),然后再最小化这些点之间的距离期望。
模态正则:
模态正则用于惩罚消失的模态。模态消失是GAN的主要问题之一。如下图所示,对于大部分z而言,生成器的梯度都将生成器向M1推,只有当G(z)非常接近M2时,生成器才能得到将它推向M2的梯度。然而很有可能这样的z在先验分布中只有很低的甚至接近0的密度。因此若我们有一个自动编码器G ◦ E ,假设M0为真实数据分布中的小众模态,对于x ∈ M0,在已知该自动编码器有足够的能力,那么G(E(x))将位于非常接近M0的位置。因此定义下式为模态正则项,通过将该正则项加入生成器的目标函数中,鼓励G(E(x))向真实数据分布中较近的模态移动:
【图片来源: Che, T., Li, Y., Jacob, A.P., Bengio, Y., Li, W.(2016).Mode Regularized Generative Adversarial Networks; https://arxiv.org/pdf/1612.02136.pdf】
总结来说,模态正则生成对抗网络中生成器和编码器的目标函数分别为:
【内容及公式来源: Che, T., Li, Y., Jacob, A.P., Bengio, Y., Li, W.(2016).Mode Regularized Generative Adversarial Networks; https://arxiv.org/pdf/1612.02136.pdf】
发展历史
描述(300字)
2014年,Goodfellow等人首次提出生成对抗网络。同年Mirza与Osindero通过引入一个额外的向量加强了GAN的表征能力,使生成器能够被一些有用信息所约束来生成数据。受这一思想的启发,各个任务发展出了不同的条件生成对抗网络,包括从地图、文字中合成图片,文字合成,风格转换和影片风格化等等。
大量的研究想拓展GAN的极限,使其可以生成高进度、像照片一样真实的图片。2015年,Denton等人首次提出LAPGAN,将拉普拉斯金字塔(Laplacian pyramid)结构引入GAN中,用于生成高精度图片。LAPGAN每一层的生成器和分辨器都为卷积网络。另一个用卷积结构的是Radford等人提出的DCGANs。DCGANs在非监督图片特征学习领域上取得了长足的进步。另一个改进GANs的研究思路是通过特征学习,包括隐藏空间和图片空间的特征。其背后的动力为不同空间的特征对于生成高质量的图片具有互补性。从这个思路出发,一些研究使用学到的特征之间的距离作为生成模型的损失。2015年,Larsen等人将变分自动编码器的目标函数和GANs相结合,并利用从分辨器学到的特征来计算更好的图片相似度量度。他们的研究表明,以视觉观察来看,从分辨器学到的距离可以提高生成样本精度。
虽然在很多任务中都表现出色,GANs仍然非常难训练。Radford等人在2015年提供了一系列基于经验的结构性选择,这些选择都对稳定GAN的训练非常重要。2016年Salimans等人提出特征匹配技术,用于稳定GAN的训练过程。生成器被要求与分辨器中间特征的统计数据相匹配。除了特征距离,Dosovitskiy和Brox发现图片空间中的对应损失可以进一步提高GAN的训练稳定性。
与Mode Regularized GAN相似的是2015年Larsen等人提出的VAEGAN。他们提出在训练GAN的同时训练一个自动编码器或者变分自动编码器(VAE)。但在VAEGAN中的VAE是用来生成样本的,而Mode Regularized GAN中基于自动编码器的损失作为正则项,被用来惩罚消失的模态。
主要事件
年份 | 事件 | 相关论文 |
2014 | Goodfellow等人首次提出生成对抗网络 | Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680). |
2014 | Mirza等人提出条件生成对抗网络,使GAN在特定任务中的表现大幅提升 | Mirza,M.,& Osindero,S.(2014). Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784 |
2015 | Denton等人首次提出LAPGAN,将拉普拉斯金字塔结构引入GAN中,用于生成高精度图片 | Denton, E. L., Chintala, S., Fergus, R.,et al. (2015). Deep generative image models using a laplacian pyramid of adversarial networks. In Advances in neural information processing systems, pp. 1486–1494. |
2015 | Radford等人提出DCGANs | Radford,A., Metz,L., &Chintala,S.(2015). Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434. |
2015 | Larsen等人将VAE和GANs相结合,提出VAEGANs | Larsen,A. B.L., Sønderby,S.K., &Winther,O.(2015). Autoencoding beyond pixels using a learned similarity metric. arXiv preprint arXiv:1512.09300. |
2016 | Wang等人提出S^2-GAN | Wang,X., &Gupta,A. (2016).Generative image modeling using style and structure adversarial networks. In ECCV |
2016 | Reed等人使用GANs实现文字到图片的转换合成 | Reed,S., Akata, Z., Yan,X., Logeswaran,L., Schiele, B., & Lee,H. (2016).Generative adversarial text to image synthesis. arXiv preprint arXiv:1605.05396 |
2016 | Li等人使用GANs实现实时文字合成 | Li,C., & Wand,M.(2016).Precomputed real-time texture synthesis with markovian generative adversarial networks. arXiv preprint arXiv:1604.04382. |
2016 | Salimans等人提出一系列可以提高GANs训练稳定性的技术 | Salimans, T., Goodfellow,I., Zaremba,W., Cheung,V., Radford,A., & Chen,X.(2016). Improved techniques for training gans. arXiv preprint arXiv:1606.03498. |
2016 | Dosovitskiy和Brox提出DeePSiM(深度感知相似度) | Dosovitskiy,A., & Brox,T.(2016). Generating images with perceptual similarity metrics based on deep networks. arXiv preprint arXiv:1602.02644. |
发展分析
瓶颈
mode regularized GAN主要针对GAN的模式崩塌问题进行改进,虽然文中提出了一些用于测量模式崩塌的量度,但依然有很多限制。尤其是对于无法有效区分各个数据标签的所属模式的数据。对于这类数据,作者也提出了另一种度量方式,通过引入第三方分辨器来估计模式崩我想最大的瓶颈,应该说文章提出了一种方法可以一定程度上有效的改善模式崩塌的问题,只是并不能从根本上解决它。比如说他已监督训练的方式来训练E(x)塌的程度。但这种度量方式也无法给出精确的模式缺失的数量。此外,作者文中强调,gan的训练依赖个人的经验对参数fine tuning过程。加入新的正则项,并不能简化训练本身,甚至发而由于加入了新的参数,使调参更加复杂。
未来发展方向
提出有效统一的测量模式崩塌的指标。
Contributor: Jianghui Wang