DiscoGAN是一种能够自动学习并发现跨域关系的生成对抗网络。该模型建立了从一个领域到另一个领域的映射关系。在训练过程中,使用两个不同的图像数据集,并且这两个数据集之间没有任何显式的标签,同时也不需要预训练。该模型把一个领域中图像作为输入,然后输出另一个领域中的对应的图像(如下图所示)。该模型的核心是把两个不同的GAN结合在一起——每一个GAN保证产生式函数能够把一个领域和另一个领域映射起来。该模型的主要应用之一是图像的风格迁移。
[描述来源:Learning to Discover Cross-Domain Relations with Generative Adversarial Networks; URL:https://arxiv.org/pdf/1703.05192.pdf]
发展历史
在现实生活中,两个不同领域之间的关系是普遍存在的。比如,中文语句和对应的英文语句之间的对应关系就是一种跨域关系,夹克外套和鞋子之间的颜色关系也是跨域关系。在机器学习领域中,该问题可以被形式化为一个有条件的图像生成问题。也就是说,给定一个领域中的图像来产生另一个领域中的图像可以通过这两个领域之间的映射函数来实现。最近,研究人员通过生成对抗网络来解决该问题。之前的方法(如条件生成对抗网络)需要使用显式的配对的两个不同领域的数据集(比如,一个线条画和对应的真实的狗的图像)来训练模型。然而,配对或有标签数据集是难以获得的。DiscoGAN就是用来解决该问题,两个不同领域的没有配对的图像数据集就可以用来训练DiscoGAN模型。训练过程中,它能够学习并发现两个不同领域之间的关系。通过已学习到的关系,DiscoGAN网络能够实现从一个领域到另一个领域之间的图像风格变换,并且同时保持各自的关键特征不变。
具体地,DiscoGAN模型经过如下三个发展过程:
1)标准的GAN
如下图所示,该架构在原始的GAN基础上做了稍微的改变,即生成网络使用图像作为输入,而非随机高斯噪声。该架构仅能够学习从领域A到领域B的对应关系,因此对该网络架构进行改进,产生了第二种网络结构
2)带有重构损失的GAN
这种架构在第一种的基础上添加了第二个生成器,同时,也添加了重构损失项来比较输入和重构的图像。该架构能够学习从领域A到领域B的映射,并且能够发现它们之间的对应关系。然而,该模型的映射是单方向的。我们需要构建的是一个双射的网络模型。此外,该模型也存在mode collapse问题,它在GAN模型中是普遍存在。为解决以上两个问题,研究者们设计了DiscoGAN架构
3)DiscoGAN
DiscoGAN能够学习两个领域之间的双射关系,同时解决mode collapse问题。它由两个带有重构损失的GAN组成,这两个模型同时训练,并且对应的产生器共享权值,产生的图像分别送往各自的判别器。产生器损失是两个GAN损失和两个重构损失项的和,判别器损失也是两个模型判别器损失的和。
主要事件
年份 | 事件 | 相关论文 |
2014 | Goodfellow等提出生成对抗网络 | Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. In Advances in Neural Information Processing Systems (NIPS), 2014. |
2016 | 使用条件生成式对抗网络解决图像到图像的变换问题 | Isola, P., Zhu, J., Zhou, T., and Efros, A. A. Image-to-image translation with conditional adversarial networks. In arXiv preprint arXiv:1611.07004, 2016. |
2017 | 一种能够自动学习并发现跨域关系的生成对抗网络-DiscoGAN | Kim, T., Cha, M., Kim, H., Lee, J. K.,and Kim, J.Learning to Discover Cross-Domain Relations with Generative Adversarial Networks.In eprint arXiv:1703.05192 |
发展分析
瓶颈
生成对抗网络与其他深度学习网络类似,需要大量的训练数据和较长的训练时间,并且模型的大小也限制了其的应用场景(如在移动和嵌入式设备中较难部署)。此外,GAN模型普遍存在问题是mode collapse,输出图像分辨度等问题,有待进一步优化。
未来发展方向
DiscoGAN网络在图像到图像的变换领域,比如涉及发现颜色和纹理等简单的关系,是有效的。发展该模型使之能够学习并发现领域间更复杂的关系(如图像在几何上的关系,以及在机器翻译中,中文和对应的英文语句之间的对应关系)是未来的发展方向之一。
Contributor: Kejin Jin