刘晓坤翻译

2019/01/06 13:55

为了修复打码女神脸，他们提出二阶段生成对抗网络EdgeConnect

当图像缺失部分太多的时候，结合多阶段方法和边缘先验信息，这个 GAN 实现了高还原度的图像修复，玩法还不止于此。

在过去几年中，深度学习技术在图像修复方面取得了显着进步。然而，许多这些技术无法重建合理的结构，因为它们通常过度平滑和/或模糊。比如：

或者合成结果很好，视觉效果真实，但和原始照片却不一样。比如：

两张修复照片看起来都很正常，但原人不是长这样。深度生成模型只把生成范围限定在了「眼睛」上，而没有定位到更精细的纹理。对比一下庐山真面目：

再看看这个例子，空白区域越多，图像补全的时候就越任性（最右侧是原始图像）：

以上示例皆选自论文《Image Inpainting for Irregular Holes Using Partial Convolutions》，读者可参见《心中无码：这是一个能自动脑补漫画空缺部分的 AI 项目》一文。

在用媒介还原真实世界的历史上，人们有一个共识，即边缘才是物体最具辨识度的信息。所以，在彩色照相技术出现之前，我们是通过素描、速写、黑白照片等来记录世界，并认为其足够真实和还原。

除非你是立体主义、超现实主义、印象主义、浮世绘主义、国风主义...

不知道是不是也抱着这样的想法，加拿大安大略理工大学理学院的研究者开发了一种结合边缘信息先验的图像修复方法，其可以更好地再现显示精细细节的填充区域。

生成效果如下所示，补全模型会先生成中间所示的完整边缘信息，然后结合失真信息一起生成最终的修复图像。

更好玩的是，该模型还可以帮你做精准编辑。想削掉那个山峰吗？不用再做图层和重新上色，简单画几条边缘就行了。

两位小姐姐都很美，但更喜欢黄色的皮肤，怎么办？

具体来说，作者们提出了一个二阶段生成对抗网络 EdgeConnect，它包括一个边缘生成器，然后是一个图像补全网络。边缘生成器在图像的缺失区域（规则和不规则）生成预测边缘，然后图像补全网络使用预测边缘作为先验填充缺失区域。研究者通过公开可用的数据集 CelebA、Places2 和 Paris StreetView 对模型进行端到端评估，并表明它在数量和质量上优于当前最先进的技术。

论文：EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning

论文地址：https://arxiv.org/pdf/1901.00212.pdf
项目地址：https://github.com/knazeri/edge-connect#citation

研究者已经在 GitHub 中基于 Places2、CelebA 和 Paris-StreetView 数据集给出了全部预训练模型。

下图中展示了他们的方法和其它已有模型的对比。相比之下，EdgeConnect 修复的边缘信息精确得多，基本不会无中生有，和真实图像最接近。

图 3：和已有方法的定性结果对比。（a）原始图像；（b）添加白色掩码的图像；（c）Yu et al.；（d）Iizuka et al.；（e）本文的方法（端到端）；（f）本文的方法（Canny σ = 2）

下图是方法概览。不完整的灰度图像和边缘图以及掩模是第一阶段 G1 的输入，用于预测完整边缘图。将预测的边缘图和不完整的彩色图像传递给第二阶段 G2 以执行修复任务。

其中，下图中间的蓝色显示的边缘是由边缘生成器网络所预测而补全的（对于缺失的区域）。

图 1：(左）输入缺失区域的图像。缺失的区域用白色表示。（中）计算边缘。使用 Canny 边缘检测器计算以黑色绘制的边缘（对于可用区域）；而蓝色显示的边缘是由边缘生成器网络所预测而补全的（对于缺失的区域）。（右）图像修复的结果。

再看看更多的图像拼接、移除和编辑的例子吧：

图 10：使用（a）的左侧和（b）的右侧生成（c）的边缘图，最后生成（d）的拼接图。

图 11：使用 EdgeConnect 进行目标移除和图像编辑的示例。（左）原始图像。（中）使用可选边缘信息移除不想要的目标来引导图像修复。（右）最终生成图像。

定量分析

现在将注意力转向这项工作的关键假设：边缘信息有助于图像修复。表 3 显示了有和没有边缘信息的修复结果。当边缘信息被整合到修复模型中时，EdgeConnect 在每个度量上都获得了更好的分数，即使图像的大部分缺失也是如此。

表 3：有边缘信息（完整模型）和无边缘信息（仅包含 G2 阶段）的修复结果的对比。

研究者使用了参数σ来控制图像补全网络可用的边缘信息量。

对于较大的σ值，可用的边缘太少，不能保证生成的图像质量。另一方面，当σ太小时，生成太多边缘，这对于所生成图像的质量也会产生不利影响。也就是说，存在合适的最佳σ值，或者说我们只需要适当的边缘信息量。图 6 展示了修复图像的质量随 σ的变化。

图 6：PSNR 和 FID 随 σ的变化。

图 7 展示了σ的不同值如何影响具体的修复任务。注意，在边缘数据稀疏的区域中，修复区域的质量降低。例如，在σ= 5 的修复图像中，左侧人脸的左眼重建得比右眼更锐利。但是并不是说每张图像需要的最优σ值都是一样的。

图 7：Canny σ对图像修复结果的影响。

实际上，EdgeConnect 可以看成是两个模型，包含了第一阶段的边缘预测就可以用于图像修复，不包含则可以用于图像编辑，只要描绘出合适的边缘就能在第二阶段生成合适的图像。实际上，在最上方展示的人脸案例中，EdgeConnect 可能也很难还原真实的边缘信息，他们也给出了一些失败案例。

研究者计划开发更好的边缘探测器。虽然有效地描绘边缘比数百条细节线更有用，但是边缘生成模型有时无法准确地描绘高度纹理化区域中的边缘，或者当图像的大部分缺失时，如图 9 所示。

图 9：无法生成相关边缘信息的修复结果的失败案例。

这项研究值得关注的地方在于，使用了多阶段的方法，选择了相关度足够高的、生成难度较低的先验信息，作为下一阶段的先验，简单而高效。

研究者表示，通过改善边缘生成系统，或许可以将该模型扩展到高分辨率修复应用。

理论论文计算机视觉图像修复

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达（多变量）数据的概率分布。有基于无向图模型（马尔可夫模型）的联合概率分布模型，另外就是基于有向图模型（贝叶斯模型）的条件概率分布。前者的模型是构建隐含层(latent)和显示层（visible)的联合概率，然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布，也就是给定一个随机采样的隐含层，模型可以生成数据。生成模型的训练是一个非监督过程，输入只需要无标签的数据。除了可以生成数据，还可以用于半监督的学习。比如，先利用大量无标签数据训练好模型，然后利用模型去提取数据特征（即从数据层到隐含层的编码过程），之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型，当然，两个模型需要结构一致。

来源：机器之心 UT

边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题，边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括（i）深度上的不连续、（ii）表面方向不连续、（iii）物质属性变化和（iv）场景照明变化。边缘检测是图像处理和计算机视觉中，尤其是特征检测中的一个研究领域。

来源：维基百科

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks