我们都知道,最近出现的各种图像到图像转换模型都至少使用图像级(即输入 - 输出对)或集合级(即域标签)监督中的一种。但实际上,即使是集合级的监督也可能成为数据收集过程中严重的瓶颈。
因此,在本篇论文中,来自韩国延世大学、Naver 株式会社 Clova AI Research 和瑞士洛桑联邦理工学院的研究者在完全无监督设置下完成图像到图像的转换,即既没有图像对也没有域标签。值得关注的是,本文是一作 Kyungjune Baek 在 Clova AI Research 实习期间完成的。
论文链接:https://arxiv.org/pdf/2006.06500.pdf
代码地址:https://github.com/clovaai/tunit
那么研究者是如何实现无监督的图像到图像转换呢?
他们提出了一种真正的无监督图像到图像转换方法(truly unsupervised image-to-image translation method, TUNIT),在该方法中,通过信息论(information-theoretic)方法学习分离图像域以及使用预估域标签生成相应的图像,二者同时进行。
在各种数据集上的实验结果表明,该方法能够成功分离域,并且在这些域之间实现图像转换。此外,在提供域标签子集的半监督设置下,该模型的性能优于现有的集合级监督方法。
如何实现的
首先,研究者阐明,本文中的无监督图像到图像转换属于无任何监督的任务,也就是没有图像级和集合级监督。其中有来自 K 个域(K≥2)的图像 X,没有标签 y,K 是数据集的一个未知属性。
图 2:三种监督级别,以往的图像到图像转换方法通常依赖 (a) 图像级和 (b) 集合级监督,而本研究提出的方法在执行图像到图像转换任务时使用的是 (c) 无任何监督的数据集。
接着,研究者提出了一个名为引导网络(guiding network)的模型,它集成了域分类器和风格编码器。通过将风格代码馈入到生成器以及将伪域标签馈入到鉴别器,该模型指导转换过程。
最后,通过使用来自鉴别器的反馈,生成器合成目标域(例如品种)的图像,同时尊重参考图像的风格(例如毛发图案),保持源图像的内容(例如姿势),具体架构如下图 3 所示。
图 3:该研究所提方法的概览。
学习生成域标签,编码风格特征
在该研究的框架中,引导网络 E 同时发挥着无监督域分类器和风格编码器的作用。引导网络 E 由 Eclass 和 Estyle 两部分组成,它们分别学习提供域标签和风格代码。
带有域指导的图像到图像转换
对于成功的图像转换,转换模型应该提供包含目标域视觉特征的逼真图像。为此,研究者采用了 3 种损失:1)生成逼真图像的对抗损失;2)鼓励模型不要忽略风格代码的风格对比损失;3)保留域不变(domain-invariant)特征的图像重建损失。
最后共同训练鉴别器、生成器和引导网络,具体公式如下所示:
效果怎么样
所提策略的效果
对于这种可以同时执行表示学习和训练转换网络的训练策略,研究者进行了深入探究。尽管可以轻松想到分别训练引导网络和生成对抗网络(GAN),但研究者证实了这会大大降低整体性能。
为了分析不同训练策略的效果,研究者在训练迭代的过程中绘制了逐级 FID,并提供了 tSNE 可视化图,如下图 4 所示:
图 4:单独训练与联合训练的比较。
从 FID 的比较来看,相较于联合训练策略,单独训练策略得到的平均 FID 分值要高得多,标准差也更高。这清楚地表明,联合训练在图像质量和性能稳定两方面更加高效。
不带任何标签的图像到图像转换
为了证实该方法能够处理无监督情况下的图像到图像的转换,研究者分别在 AFHQ、FFHQgaimoxi 和 LSUN Car 数据集上对模型进行了评估。
图 6:在 AFHQ wild 上训练引导网络时,它的风格空间的 t-SNE 可视化图。
图 7:无监督情况下,在 AFHQ 上的图像到图像转换结果。
图 8:无监督情况下,在 FFHQ 和 LSUN Car 上的图像到图像转换结果。
带有少量标签的图像到图像转换
研究者将该模型与在半监督学习设置下两个方案训练的 SOTA 模型做了比较,他们将数据集 D 划分为标注集 Dsup 和未标注集 Dun,变化比率 γ = |Dsup|/|D|。
第一个方案是只用 D_sup 训练模型;第二个方案是为了解决训练转换模型时可用样本数量不公平的问题。
Naïve 方案
下图 10(a)和(b)展示了在 Summer2winter 和 AnimalFaces-10 上使用逐级 FID 的定量结果。
图 10:naïve 方案中,不同比例的标注图像的 FID 曲线变化图。
下图 9 展示了该研究的结果与使用 naïve 方案训练的基线方法的定性结果比较。
图 9:不同比例的标注图像的定性结果比较。
替代方案
用 naïve 方案训练的基线方法不能完全利用训练样本,因为它根本不考虑 D_un。因此,为了更好地利用全部训练样本,研究者使用 D_sup 从头开始训练辅助分类器,以生成 D_un 的伪标签。
图 11:替代方案下 Summer2winter 上的 FID 曲线变化图。
下图 12 展示了 AnimalFaces-10 上的分类准确度和 FID 分数。
图 12:(a)替代方案下 AnimalFaces-10 上的 FID 曲线变化图;(b)AnimalFaces-10 上的分类准确度曲线。
辅助分类器的准确性随着训练样本(带标签)的数量的增加而提高。更高的分类精度自然可以提高转换质量。尽管 FUNIT 的 8% 的情况和 1% 的情况下的分类精度相似(约为 86%),但转换性能显示出了明显的差距(FUNIT 是 59.6,该研究的模型是 47.9)。这意味着准确性不是唯一的评判转换性能的因素。基于广泛的比较与评估,研究者表明提出的模型对半监督方案是有效的,并且相比于基线有显著的改善。