2019/04/03 14:20

作者：Sheng You、Ning You、Minxue Pan

渐进式图像重构网络：像画画一样重构图像

绘画的时候，我们一般会先勾勒出轮廓，然后再一步步细化、上色，最终完成画作。图像生成是否也可以遵循这个步骤呢？研究人员受此启发，构建了渐进式图像重构网络。该网络仅根据稀疏边缘和颜色域，按照模拟、重构、微调三个阶段生成了详细的逼真图像。

Demo 演示动图

引言

图像重构（IR）对物理与生命科学领域的图像应用软件来说至关重要，其目的在于根据 ground truth 图像抽取出的的各类信息对图像进行重构。

一般而言，一幅图像由内容和样式组成。提取自图像或者手工绘制的草图是草图-图像（sketch-to-image，S2I）合成领域的常见内容。但是，包含线条粗细和边缘强度（boundary intensity）等密集详细信息的草图很难编辑或绘制。具有梯度的二值等值线图也可以表示图像，但仅限于图像编辑领域。简而言之，上述方法所提取的内容并不足够稀疏，也不便于控制。

近来，在图像到图像（I2I）转化领域，Pix2Pix等可以从稀疏的二值边缘图中合成逼真图像，并根据条件生成对抗网络（cGAN）部署循环框架。这些方法将图像的内容和样式解耦，以便分别提取。但是，在边缘到图像（edge-to-image，E2I）转化领域，示例引导的样式输入无法在输出中准确地重构高保真样式或颜色。

上述限制因素使我们考虑如何解决更稀疏输入和更可控样式空间这两者间的矛盾。本文在一定程度上受到了绘画过程的启发，绘画过程又可以概括为三部分：临摹、初始绘画和微调。绘画界建议有抱负的年轻画家在初学绘画的时候可以通过临摹大师的画作来加强自己的基础技能。在绘画初始的阶段，简单几笔轮廓和背景填充提供了一幅图画基本要素和结构信息。在微调阶段，随着图画颜色层次感的不断提升带来的光影效果，整个画作得以逐步细节化。

与这种绘画过程类似，研究人员提出了一种通用的图像重构方法，以便展示具有二值稀疏边缘和平面颜色域（color domain）的细节图像。二值边缘和颜色域的输入足够稀疏和简单，因而可以提取（图 1（a））、可以手绘（图 1（b））或者可以编辑（图 1（c））。为了提高图像样式的可控性和可解释性，研究人员没有像在 I2I 转化中那样提取隐含的潜在样式向量，而是输入颜色域作为显式的样式特征。具体来说，研究人员构建的基于生成对抗网络的模型也包含三个阶段：模拟阶段、生成阶段和微调阶段，三者分别对应绘画过程的三部分内容。如图 1 所示，在 E2I 转化域内，模型 PI-REC 在稀疏输入的用户自定义样式测试中表现良好。相较于以往的方法，模型 PI-REC 可以生成更准确的、具有颜色风格的内容细节。

论文代码参见：https://github.com/youyuge34/PI-REC/

本文的主要贡献如下：

提出了一种新颖的通用图像重构架构，其中所使用的渐进式策略使模型 PI-REC 能够从稀疏输入重构高保真图像。
研究人员没有提取 I2I 转化中常用的潜在隐式向量，而是将平面颜色域用作显式的样式输入，从而提高了可控性和可解释性。
研究人员提出了针对模型 PI-REC 的超参数混淆（HC）操作，进而获得了显著的手绘草图转化结果，希望此研究能推动自动绘画技术的发展。

图 1：（a）图像重构结果。本文中的方法能够从提取的稀疏边缘和平面颜色域中重构逼真图像。（b）手绘草图转化。本文中的方法可以在手绘草图的基础上合成准确和微调图像。（c）用户自定义 E2I 转化。用户可以将自定义和像素级的样式图像注入模型 PI-REC 中以便精准获得期望输出。

论文：PI-REC: Progressive Image Reconstruction Network With Edge and Color Domain

论文地址：https://arxiv.org/pdf/1903.10146.pdf

研究人员提出了一种通用的图像重构方法以展示仅根据二值稀疏边缘和平面颜色域重构的详细图像。受绘画过程启发，研究人员构建了基于生成对抗网络的框架，该框架由三个阶段组成：旨在初始化网络的模拟阶段、重构初始图像的生成阶段以及微调初始图像以生成最终详细输出的微调阶段。该框架允许模型根据稀疏输入信息生成大量高频细节。

研究人员还探讨了从图像中隐式分解样式潜在空间的缺陷，表明模型中显式的颜色域在可控制性和可解释性方面表现更好。在实验中，研究人员在重构真实图像以及将手绘草图转化为令人满意的图像方面都取得了突出结果。此外，在边缘到图像（E21）的转化任务中，研究人员构建的模型 PI-REC 成为目前定量和定性评估真实性和准确性的最佳方法。

PI-REC

本文的最终目的是仅根据二值稀疏边缘和颜色域重构逼真的图像。因此，研究人员提出了 PI-REC 模型架构，它由三个阶段构成：模拟阶段、生成阶段和微调阶段，这些阶段都仅用一个生成器和一个判别器。在训练期间，在同一个生成器上利用渐进策略可以减少时间成本和 RAM 内存成本。

预处理训练数据

预处理训练数据需要注意三个方面：边缘、颜色域和超参数混淆。

在本文中，边缘被视为图像的内容。研究人员选择 Canny 算法来获得粗糙但坚实的二值边缘，这样可以用相对稀疏的输入增强模型的泛化能力。

用显式的方式提取与样式特征对应的颜色域。研究人员使用中值滤波器算法、K-均值算法来获得平均颜色域。之后再次用中值滤波器来模糊边界线的锐度。

超参数混淆（HC）：从输入图像中提取边缘或颜色域时，有些算法需要超参数。在训练过程中，研究人员采用了一定范围内不同的超参数随机值，这可以增强训练数据，防止过拟合。同时，HC混淆还会以一定概率去除边缘像素信息，进一步加强模型在处理手绘输入时的泛化能力。

实验

数据集

为了训练模型，研究人员使用了不同类型的数据集：edges2shoes、edges2handbags、anime faces of getchu、CelebA。

控制变量研究

架构优势。如图 3 所示，本文的方法在重构高频图像方面具有优势。具体来说，研究人员将 U 网络架构与本文的 G_1-2 架构（图 3d/e）进行了比较。来自 BicycleGAN（pytorch 版本项目）的 U 网络生成带有更多棋盘效应伪影的粗糙高频细节，导致逐步提高图像质量变得异常困难。

输入的稀疏性。如图 4 所示，本文的模型对一组固定的参数不太敏感，其中 C 和σ是控制稀疏性的 K 均值算法和 Canny 算法的超参数。和预期相一致，如果输入的信息越详细，那么输出的结果也会更好。

定性评估

手绘草图转化。研究人员设计了一款用来绘制草图的绘图软件，它可以依次分别记录边缘和颜色域。此外，此外，研究人员可以方便地观察到实时合成的草图和输出的转化结果，如图 5 和图 1(b) 所示。补充材料中展示了该交互式软件的 demo。一方面，边缘在生成内容方面起着重要作用，虽然输入信息非常稀疏，但是由于模型的优秀泛化能力，仍然可以生成各种细节，如刘海（图 5c/d/h）、嘴（图 5f）、头发（图 5a/b/g）。另一方面，模型在高保真合成图像的边缘和颜色域之间进行权衡。

与基线的比较。在图 6 中，研究人员使用数据集 edges2shoes 和 edges2handbags 定性比较了 PI-REC 和基线在 E2I 任务上的结果。结果显示，本文的模型同时在内容和样式重构上超过了当前最先进的方法。就内容级别而言，本文的模型生成了更准确的细节（图 6 上半部分）。同时，此模型根据用户指定的颜色样式生成了更加准确的颜色，而非仅仅是根据样例指导图片生成粗略的颜色分布（图6下半部分）。

定量评估

评估指标。研究人员从真实性和准确性两方面对输出结果进行了定量评估。在真实性方面，给定各种方法生成的图像对，五个工作人员在没有时间限制的情况下从中选出更逼真的图像。此外，研究人员使用 logits 输出的kernel-MMD和 FID 分数来定量评估输出质量。

真实性准确率评估。如表 3 中所述，研究人员将本文的模型与 BicycleGAN 、MUNIT 进行了对比，它们分别是监督 I2I 转化领域和无监督 I2I 转化领域的代表性方法。为了获得质量最好的重构结果，研究人员将真实图像作为样式图像输入 MUNIT 和 BicycleGAN。另外，为了公平比较，研究人员还将颜色域作为样式图像输入其中。

表 1：S2I 合成、I2I 转化和 IR 三个领域内主要方法的主要差异。†表示不同特征的输入，∗表示输出质量。

图 2：PI-REC 的网络架构。它包含三个阶段：模拟阶段、生成阶段和微调阶段，并且在渐进训练过程中只有一个生成器和一个判别器。

图 3：不同生成器架构之间的输出结果对比：带有 U 网络（来自 BicycleGAN）的 IR、PI-REC 的唯一生成阶段、包含模拟阶段的生成阶段和总体阶段。

图 4：a）不同稀疏级别输入上的结果。由于训练时的 HC 操作，本文的模型对一组用于测试的特定超参数不敏感。b）有 HC 操作和没有 HC 操作的输出结果对比。在训练中应用 HC 操作时，研究人员可以在局部细节上获得更好的质量，并从非常稀疏的内容或样式中获得满意的输出。

表 2：数据集信息

图 5：手绘草图转化。最上面一行表示手绘草图与已编辑边缘和颜色域相结合。下面一行展示了输出，这些输出对草图输入中的小变化有灵敏的响应。

图 6：PI-REC 与基线的定性比较结果。对于 MUNIT 和 BicycleGAN，研究人员分别将真实图像和颜色域作为样式输入，以获取最好的重构输出。很明显，经过微调的 PI-REC 模型可以更准确地重构内容和颜色细节。

图 7：用相似内容进行 I2I 转化。

理论计算机视觉图像处理生成模型

相关数据

BicycleGAN技术

GAN的一个变种

重构技术

代码重构（英语：Code refactoring）指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。软件重构需要借助工具完成，重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中，重构需要单元测试来支持。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

来源：Wikipedia

图像生成技术

图像生成（合成）是从现有数据集生成新图像的任务。

来源：paperswithcode

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

中值滤波技术

在图像处理中，在进行如边缘检测这样的进一步处理之前，通常需要首先进行一定程度的降噪。中值滤波是一种非线性数字滤波器技术，经常用于去除图像或者其它信号中的噪声。这个设计思想就是检查输入信号中的采样并判断它是否代表了信号，使用奇数个采样组成的观察窗实现这项功能。观察窗口中的数值进行排序，位于观察窗中间的中值作为输出。然后，丢弃最早的值，取得新的采样，重复上面的计算过程。

来源：维基百科