研究动机
近年来关于图像翻译的研究越来越多,其中比较经典的有监督模型包括 Pix2Pix, BicycleGAN 等,无监督模型包括 CycleGAN, MUNIT, StarGAN, DRIT 等。
由于这些模型无论是针对多领域翻译还是单领域翻译都是将目标域图像的风格/属性整个迁移到源域图像上,因此虽然这些方法可以很好的解决风格统一或者内容相关的图像翻译问题,但对于有大量实例物体并且物体与背景之间的风格差异非常巨大的复杂结构图像翻译来说是很困难的。
为了解决该问题,作者基于 MUNIT 模型提出了基于端到端的训练模型 INIT,其采用不同的风格编码来独立的翻译图像中的物体、背景以及全局区域。
模型架构
INIT 的网络架构非常类似于 MUNIT 模型,但不同于 MUNIT 模型,作者提出的模型不仅对全局图像进行内容和属性编码,而且还对实例物体以及背景也进行内容-属性编码。即首先给定一对未对齐的图像和实例物体的坐标位置,应用全局编码器 Eg 以及局部编码器 Eo 分别获取全局图像和实例物体图像内容 c 和属性向量 s,然后通过交换属性向量来获取跨域的目标实例对象图像,整个模型的架构如下图所示。
另外作者修改了原始的循环重建过程使其不仅包括跨域(X 域->Y 域)模式重建还包括了跨粒度级(实例物体->全局图像)模式重建。对于跨域来说是完全基于 MUNIT 模型所提出的循环重建,针对跨粒度级的重建过程如图 3 所示,作者通过交换图像和实例物体的编码-解码对后生成图像,再对生成图像继续重复上一操作使得再次生成出的图像和实例物体应和原始图像以及实例物体一致。
对于交换粒度级内容-属性编码对需要注意的是,作者采用了从粗略(全局)属性向量去结合细粒度级内容向量的交换方式,而如果逆转这一过程即利用细粒度的属性向量去结合粗粒度级的内容向量则无法实现(如图 4 所示)。
综上所述,模型采用的损失包括重构损失以及对抗损失,重构损失包括了全局图像重构以及局部实例物体重构,这两类的重构中又包括了图像重建损失、内容重建损失以风格重建损失。对抗损失也包括了全局对抗损失以及局部实例对抗损失,整个模型的损失函数如下。
实验结果
作者的实验主要采用了自己设计的 INIT 数据集以及 COCO 数据集,INIT 数据集是由作者设计并首次应用于图像翻译问题,其中包含 155529 张高清街景图像并且不仅设计了 sunny, night, cloud, rain 四种域标签而且还对详细实例对象边界框注释(车,人以及交通标志)。
作者使用 LPIPS 矩阵、Inception-Score 以及 Conditional Inception-Score 对 INIT 模型进行评估,并和 CycleGAN, UNIT, MUNIT, DRIT 进行比对,其中 INIT w/Ds 表示全局图像和局部实例对象共享一个鉴别器,INIT w/o Ds 则表示两个鉴别器独立,以下是实验结果。
总结
作者基于 MUNIT 的架构提出了针对实例级图像翻译技术,通过对提取实例对象的风格/属性来直接影响和指导目标域该物体的生成,这使得在进行复杂结构图象翻译时能产生更细致的结果。
从实验的效果图来看也能发现翻译后的图像在具体实例对象上也能更符合现实场景。另外作者还设计了 INIT 街景数据集,该数据集包括了对具体实例对象的注释框,有助于今后的图像翻译问题研究。