Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟、魔王编译

ECCV 2020 | 这个模型的脑补能力比GAN更强,ETH提出新型超分辨率模型SRFlow

近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种超分辨率模型 SRFlow。该模型具备比 GAN 更强的脑补能力,能够根据低分辨率输入学习输出的条件分布。该论文已被 ECCV 2020 收录。

超分辨率是一个不适定问题(ill-posed problem),它允许对给定的低分辨率图像做出多种预测。这一基础事实很大程度上被很多当前最优的深度学习方法所忽略,这些方法将重建和对抗损失结合起来,训练确定性映射(deterministic mapping)。

近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种新的超分辨率模型 SRFlow。该模型是一种基于归一化流的超分辨率方法,具备比 GAN 更强的脑补能力,能够基于低分辨率输入学习输出的条件分布

  • 论文地址:https://arxiv.org/pdf/2006.14200.pdf

  • 项目地址:https://github.com/andreas128/SRFlow?

研究者使用单个损失函数,即负对数似然(negative log-likelihood)对模型进行训练。SRFlow 直接解释了超分辨率问题的不适定性,并学习预测不同逼真度的高分辨率图像。此外,研究者利用 SRFlow 学到的强大图像后验来设计灵活的图像处理技术,能够通过传输其他图像的内容来增强超分辨率图像。

该研究展示了基于人脸图像以及其他超分辨率图像实验,结果表明 SRFlow 在 PSNR 和感知质量度量上都优于当前最优的 GAN 方法,同时 SRFlow 允许探索超分辨率解空间,以实现生成图像的多样性。

下图展示了基于 GAN 的 ProgFSR 与基于归一化流的 SRFlow 的对比结果:

SRFlow 方法简介

研究者将超分辨率公式化为:给定低分辨率(LR)输入图像,学习高分辨率(HR)图像的条件概率分布问题。该方法旨在通过捕获基于自然图像流形的所有可能超分辨率(SR)图像,来明确地解决超分辨率问题的不适定性。

为此,研究者设计了条件归一化流架构,使用基于对数似然的训练来学习丰富的分布。

用于超分辨率的条件归一化流

超分辨率的目标是通过生成缺失的高频细节,来预测给定低分辨率图像 x 的更高分辨率版本 y。大多数当前方法学习确定性映射 x→y,而该研究旨在获取与 LR 图像 x 对应的自然 HR 图像 y 的全条件分布

这是一个颇具挑战性的问题,因为该模型必须捕获多种可能的 HR 图像,而不仅仅是预测单个 SR 输出。该研究的目的是在给定大量 LR-HR 训练对的情况下,以纯数据驱动的方式训练分布的参数 θ。

条件流层

流层(flow-layer)f^n_θ 的设计需格外精细,以确保 well-conditioned inverse 和易于处理的雅可比行列式。[10,11] 首次解决了该挑战,最近也有很多研究者对此感兴趣 [5,14,21]。

该研究从无条件 Glow 架构 [21] 开始,该架构本身基于 RealNVP [11]。这些架构使用的流层可以以直接的方式设置为有条件的 [3,49]。研究者对其进行了概述,并介绍了该研究提出的 Affine Injector 层。

架构

SRFlow 的架构如图 2 所示:

应用和图像处理

研究者将 SRFlow 网络用于多项应用和图像处理任务,该研究的技术利用了 SRFlow 网络的两个关键优势,而这是基于 GAN 的超分辨率的方法 [47] 所不具备的。

首先,该研究的网络对 HR 图像空间内的分布建模,而不仅仅是预测单个图像。因此,它通过捕获多个可能的 HR 预测而具有极大的灵活性。这就允许使用其它指导信息或随机采样来探索不同的预测。

其次,该流网络 f_θ(y; x) 是完全可逆的编码器 - 解码器。因此,任何 HR 图像都可以被编码成到潜在空间(latent space)中,并精确地重构。这种双射的对应关系允许在潜在空间和图像空间中灵活操作。

随机超分辨率

给定 LR 图像 x,我们可以通过采样不同的 SR 预测,探索 SRFlow 学习到的分布。正如基于流的模型的观察结果那样,方差较小的采样可以实现最佳结果 [21]。因此,研究者使用具有方差 τ(也称为温度)的高斯分布。当 τ = 0.8 时,结果如下图 3 所示:

LR 一致性风格迁移

对 LR 图像 x 进行超分辨处理时,SRFlow 允许迁移现有 HR 图像的风格。

下图 4 展示了图像中面部特征、发色和眼睛颜色的风格迁移:

潜在空间归一化

研究者利用 SRFlow 网络 f_θ 的可逆性和学得的超分辨率后验,开发了更先进的图像处理技术。该方法的核心思想是将包含所需内容的任意 HR 图像映射到潜在空间,在该空间中对潜在统计量(latent statistics)进行归一化,使其与给定 LR 图像中的低频信息一致。令 x 为低分辨率图像,为任意高分辨率图像(不一定与 LR 图像 x 一致)。该研究的目标是获得 HR 图像 y,其包含的图像内容,并与 LR 图像 x 一致。

图像内容迁移

该研究旨在通过传输其他图像的内容来操纵 HR 图像。令 x 为 LR 图像,y 为对应的 HR 图像。如要处理超分辨率图像,则是 x 的 SR 样本。但,我们也可以通过将 x 设置为 y 的 down-scaled 版本,来操纵现有的 HR 图像 y。研究人员将其他图像的内容直接嵌入 y 的图像空间,进而操纵 y,如下图 5 所示:

图像恢复

研究者将学得的图像后验应用于图像恢复任务,进而其能力。注意,此处研究者采用了相同的 SRFlow 网络,该网络仅针对超分辨率进行训练。研究者探索了对图像中的高频信息产生主要影响的因素,如噪声和压缩伪影。

实验

研究者将其提出的方法与当前 SOTA 方法进行了对比,并执行了控制变量分析。

人脸超分辨率

该研究基于 CelebA 测试集中的 5000 张图像,评估了 SRFlow 在人脸超分辨率图像任务中的性能,并与 bicubic、RRDB [47]、ESRGAN [47] 和 ProgFSR [19] 进行了对比。

通用超分辨率

研究者在 DIV2K 验证集上评估了 SRFlow 在通用超分辨率任务中的性能,并与 Bicubic、EDSR 、RRDB、ESRGAN 和 RankSRGAN 进行了对比。

与基于 GAN 的方法 [47,56] 相比,SRFlow 实现了明显更好的 PSNR、LPIPS 和 LR-PSNR 结果,并在 PIQUE 和 BRISQUE 方面也得到了出色的结果。

图 8 中的可视化结果表明,EDSR 和 RRDB 的感知效果较差,这些结果几乎不会产生高频细节。相比之下,与 ESRGAN 相比,SRFlow 能够生成丰富的细节,实现了良好的感知效果。

如第一行所示,ESRGAN 生成的图像在多个位置存在严重的褪色伪影(discolored artifact)和振铃效应(ringing pattern)。而 SRFlow 能够生成更加稳定和一致的结果。

控制变量研究

此外,为了研究深度和宽度这两个因素的影响,研究者进行了控制变量实验。图 9 显示了在 CelebA 数据集上的结果:

理论超分辨率模型脑补能力GAN
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

条件概率分布技术

条件概率分布(Conditional Probability Distribution,或者条件分布,Conditional Distribution )是现代概率论中的概念。 已知两个相关的随机变量X 和Y,随机变量Y 在条件{X =x}下的条件概率分布是指当已知X 的取值为某个特定值x之时,Y 的概率分布。

推荐文章
暂无评论
暂无评论~