构建可扩展的生成模型以拟合复杂的分布,如音频,图像或视频,是机器学习的核心挑战之一。此前深度生成模型,如限制玻尔兹曼机器(RBM),深度信念网络(DBN)和深玻尔兹曼机器(DBM),主要通过基于MCMC的算法进行训练。在这些方法中,MCMC方法计算对数似然的梯度,但随着训练的进行,精度会逐渐下降。这是因为马尔可夫链的样本无法在模式之间快速混合。近年来,可以通过直接反向传播训练的生成模型也已经被开发出来,并且避免了MCMC训练带来的困难。例如,变分自动编码器(VAE)或重要性加权自动编码器使用识别网络来预测潜在变量的后验分布,生成对抗性网络(GAN)使用对抗训练程序通过反向传播。
而对抗自编码器(AAE)是一种可以将自动编码器转换为生成模型的通用方法。自动编码器训练有双重目标 - 传统的重建误差标准和对抗训练标准,它将自动编码器潜在表示的聚合后验分布与任意先验分布相匹配。AAE的体系结构如下图所示, 顶行是标准自动编码器,其从潜在代码z重建图像x。 底行图表示第二个网络经过训练,可以有区别地预测样本是来自自动编码器的隐藏代码还是来自用户指定的采样分布。
从数学角度来讲,令x为输入,z为具有深编码器和解码器的自动编码器的潜码矢量(隐藏单元)。 设p(z)是我们想要对代码施加的先验分布,q(z | x)是编码分布,p(x | z)是解码分布。 让p_d(x)为数据分布,p(x)为模型分布。 自动编码器q(z | x)的编码函数定义了自动编码器的隐藏代码矢量上的q(z)的聚合后验分布,如下所示:
我们已经提到过,AAE是一种自动编码器,通过将聚合后验q(z)与任意先验p(z)相匹配来进行正则化。 为此,在自动编码器的隐藏代码矢量之上需要附加一个对抗网络。 同时,自动编码器试图最小化重建误差。 对抗网络的生成器也是自动编码器q(z | x)的编码器。 编码器确保聚合的后验分布可以欺骗判别性对抗网络,使其认为隐藏代码q(z)来自真实的先验分布p(z)。
对抗网络和自动编码器使用SGD共同训练,分两个阶段 - 重建阶段和正则化阶段 - 在每个小批量上执行。 在重建阶段,自动编码器更新编码器和解码器以最小化输入的重建误差。 在正则化阶段,对抗网络首先更新其判别网络,以从生成的样本(由自动编码器计算的隐藏代码)中分离出真实样本(使用先前生成的)。 然后,对抗网络更新其生成器(也是自动编码器的编码器)以混淆判别网络。
一旦训练过程完成,自动编码器的解码器将定义生成模型,该模型将p(z)的先验映射到数据分布。
[图片及描述来源:Makhzani, A. et al. (2015). Adversarial Autoencoders. arXiv:1511.05644.]
发展历史
AAE的基础是GAN,即“生成对抗网络”(Generative Adversarial Networks)的简称,由2014年还在蒙特利尔读博士的Ian Goodfellow引入深度学习领域。因为GAN是一种非监督形式的训练方法。随后GAN就在AI领域兴起了浪潮。2015年的DCGAN试图使用在受监督的文献中常用的CNN架构来衡量GANs。然而,在广泛的模型探索之后,发现了一系列的体系结构,他们可以使得数据集的训练稳定,并允许训练更高的分辨率和更深层的生成模型。
但即便是能够适用于更高分辨率的DCGAN,这些GAN模型往往都存在一些问题,如生成器生成的样本无法控制,如何为特定数据集选择噪声概率分布,如何利用数据标签信息等。
2015年,Alireza Makhzani和Brendan Frey等人从一个新的角度对这些进行了研究,提出了对抗自编码器。他们展示了对抗性自动编码器如何用于半监督分类,图像内容,无监督聚类,降维和数据可视化等应用。他们在MNIST,Street View House Numbers和Toronto Face数据集上进行了实验,并显示对抗性自动编码器在生成建模和半监督分类任务中获得了有竞争力地结果。
主要事件
年份 | 事件 | 相关论文/Reference |
2014 | Goodfellow, I将GAN引入AI领域 | Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680). |
2015 | Radford, A., Metz, L.,提出非监督式的DCGANs | Radford, A., Metz, L., & Chintala, S. (2015). Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434. |
2015 | Alireza Makhzani和Brendan Frey等人提出了对抗自编码器 | Makhzani, A. et al. (2015). Adversarial Autoencoders. arXiv:1511.05644. |
发展分析
瓶颈
由于自编码器本身在分辨率较高的自然图像数据上表现就不好的限制,AAE目前还很难扩展到高分辨率图片数据上。此外,由于AAE的训练目标是最小化重构误差,它相对GAN来说更难生成sharp的图像,会存在细节消失的问题。
未来发展方向
AAE为传统GAN提供了一个新思路,有很大的理论创新价值,不论GAN今后的研究方向是否是AAE,其主要要解决的都是上文提到的那些问题(生成器生成的样本无法控制等)。
Contributor: Yuanyuan Li