Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

刘晓坤 白妤昕翻译

极端图像压缩的生成对抗网络,可生成低码率的高质量图像

本文提出了一个基于生成对抗网络的极端学习图像压缩框架,能生成码率更低但视觉效果更好的图像。此外,该框架可以根据原始图像的语义标签映射,在解码图像中完全合成非主要的区域。用户调查研究证实,对于低码率,本文提出的方法明显优于最先进的方法 BPG。

图 1:以对抗损失训练得到的全局生成压缩网络产生的图像,以及相应的 BPG 结果对比 [1]。

引言

基于深度神经网络(DNN)的图像压缩系统,简称深度压缩系统,近来已成为热门研究领域。

图 2:本文提出的压缩网络的结构。E 是图像 x 和可选的语义标签映射 s 的编码器。q 将潜在代码 w 量化为 w hat。G 是生成器,产生解压缩的图像 x hat,D 是用于对抗训练的判别器。对于选择生成压缩(SC),F 从 s 中提取特征,并且二次采样的热图乘以 z hat(逐点)以进行空间位分配。

这些系统在感知度量 [4-8] 上通常优于当前最佳的工程编解码器,例如 BPG [1]、WebP [2] 和 JPEG2000 [3]。除了在自然图像上可达到更高的压缩率,它们也很容易适用于特定的目标领域,如立体图像或医学图像,以从压缩表征 [9] 中直接实现高效处理和索引。但是,对于每像素低于 0.1 位(bpp)的码率,这些算法仍然会导致质量严重下降。一般来说,当码率趋向于零时,保留全部图像内容变得愈发困难,并且诸如峰值信噪比(PSNR)或多尺度结构相似性(MS-SSIM)[10] 等常用的失真度量也会失去意义,因为这些度量更关心局部(高熵)结构即纹理的保持。为了进一步改善深度图像压缩,有必要开发超越 PSNR 和 MS-SSIM 的训练目标。对抗性损失 [11] 有望实现这一目标。最近这一方法被证明可以捕获全局语义信息和局部纹理,训练出强大的生成器,从语义标签映射产生有视觉吸引力的高分辨率图像 [12,13]。

在本文中,研究者提出并研究了基于生成对抗网络(GAN)的极端图像压缩框架,其中图像的码率低于 0.1 bpp。他们提出了一个基本的 GAN 公式,用于深度图像压缩,从而生成不同程度的内容。与先前的深度图像压缩技术相比,该技术将对抗损失应用于图像补丁的伪像抑制 [6,14] 和纹理细节生成 [15] 或缩略图表征学习 [16],该框架的生成器/解码器由多尺度判别器训练,适用于全分辨率图像 [13]。

我们研究两种操作模式(对应于无条件和有条件的生成对抗网络 [11,17]),即

  • 全局性生成压缩(GC),保留整体图像内容,同时生成不同尺度的结构,例如建筑立面上的树叶或窗户的树叶;

  • 选择性生成压缩(SC),保留语义标签映射中完全生成图像的某些部分,同时高度保留用户定义区域的细节。

GC 的典型用例是在带宽受限的场景,其中我们需要尽可能地保留完整图像,却没有足够的空间存储原始像素,而 GC 在这里可以合成内容而不是块状/模糊斑点。SC 可以应用于视频通话场景,人们希望完全保留视频流中的人像,但视觉上令人愉悦的合成背景也能和真实背景达到同样的效果。在 GC 操作模式下,图像被转换成比特流并使用算术编码进行编码。SC 可以使用现成的语义/实例分割网络(例如 PSPNet [18] 和 Mask R-CNN [19])获得原始图像的语义/实例标签映射,并将其存储为向量图形。就编码成本而言,该框架实现了更小的独立于图像维度的计算代价;另一方面,压缩图像的大小和从语义标签映射生成的区域成比例地减小,在多数情况下也能明显降低存储成本。

一项关于 GC 的用户综合研究表明,本文提出的压缩系统在视觉上产生了比 BPG [1](当前最先进的工程压缩算法)和最近提出的基于自编码器的深度压缩(AEDC)系统更好的结果 [8]。特别是对于 Cityscapes 数据集中的街景场景图像,即使 BPG 使用的位数超过两倍,用户也更喜欢本文提出系统生成的图像。据作者所知,在用户调查中,这是首次深度压缩方法胜过 BPG 图像的案例。在 SC 操作模式下,该系统可以将保存的图像内容与合成的内容无缝结合,即使在跨越多个目标边界的区域也是如此。通过部分生成图像内容,该系统可以实现超过 50%的码率缩减,而图像质量不会明显降低。在这两种情况下,通过原始图像和重建图像的语义标签映射之间的平均交并比(mIoU)度量的语义信息与两个基线 [1,8] 相比,保存得更完好。

图 3:由 C = 8 的 GC 网络产生的图像,以及 BPG 和 AEDC 的相应结果。

图 4:由 GC 网络(左:C = 4;右:C = 8)产生的图像示例以及 BPG 的相应结果。

图 6:原始柯达图像 13 以及用户调查中使用的解压缩版本(本文提出的),使用 C = 4 的 GC 网络生成。此外还提供了图像的解压缩 BPG、JPEG、JPEG2000 和 WebP 版本。如果编解码器无法输出低至 0.036bpp 的图像,则选择该编解码器的最低分辨率。

论文:Generative Adversarial Networks for Extreme Learned Image Compression(用于极端学习图像压缩的生成对抗网络)

论文地址:https://arxiv.org/abs/1804.02958


摘要:我们提出了一个基于生成对抗网络(GANs)的极端学习图像压缩框架,与以前的压缩方式相比,其生成的图像码率更低但视觉效果更令人满意。借助学习压缩的 GAN 公式和一个在全分辨率图像上运行的生成器/解码器,并与多尺度判别器一起训练,就可以达到这种效果。此外,我们的方法可以根据从原始图像中提取的语义标签映射,在解码图像中完全合成非主要的区域(例如街道和树),因此仅需要存储保留区域和语义标签映射。用户调查研究证实,对于低码率,我们的方法明显优于最先进的方法,与次佳方案 BPG 相比,码率节约高达 67%。

理论论文生成对抗网络图像生成
3
暂无评论
暂无评论~