图像修复这一概念非常好理解,该任务可用于多种应用,其目的是多样的。可以是为了防止图像质量进一步恶化(例如,照片中的裂缝或胶片中的划痕和灰尘斑点);可以是为了添加或删除元素(例如,从照片中删除加盖日期和红眼),也可以用于图像编辑:移除不需要的图像内容,用合理的图像内容填补移除后的空缺,下图给出了一个例子:
[描述来源:心中无码:这是一个能自动脑补漫画空缺部分的AI项目|机器之心]
发展历史
早期的图像修复手段比较简单,在一组去除遮挡算法中,1993年Nitzberg等人提出了一种以图像分割为目的去除遮挡的技术,其基本思想是将弹性最小的相同灰度的T形连接点连接起来。但该技术主要针对简单图像而开发,不适用于自然图像。
1995年,Kokaram等人使用运动估计和自回归模型来对相邻帧的电影中的缺损进行插值,其基本思想是将相邻帧中的右像素复制到间隙中。但该技术不能应用于静止图像或要被修复的区域跨越许多帧的电影。
Hirani和Totsuka结合了频率和空间信息,以便用选定的纹理填充给定区域。这是一种非常简单的技术,但在当时却产生了令人难以置信的好结果。另一方面,该算法主要处理纹理合成(而不是结构化背景),并且要求用户选择要复制到要修复的区域的纹理。假如要替换的区域覆盖几种不同结构的图像,用户需要对该区域进行分割,分别进行替换,非常耗时。
1998年Masnou和Morel对Nitzberg等人的算法进行了扩展,他们提出了一个一般变分公式。该算法使用水平线结构(level line structure),通过连接到达要修复的区域的边界的等光线(相等灰度值的线)的点来执行修复。但据作者描述,要修复的区域仅限于具有简单的拓扑结构的区域。此外,水平线到达修复区域边界的角度不能够完整的保存下来 。
2000年,Coloma Ballester和Marcelo Bertalmio等人介绍了一种新的静态图像修复算法。在用户选择要恢复的区域之后,算法会自动使用它们周围的信息填充这些区域。与此前的算法相比,这个算法的自动化程度更高,允许同时填充包含完全不同结构和周围背景的许多区域。此外,对要修复的区域的拓扑没有限制。这一文章取得了相当大的成功。
神经网络在图像领域取得了突破性的进展后,也逐渐被用于图像修复。2017年,Ying Tai, Jian Yang, Xiaoming Liu, Chunyan Xu提出了一个深度持续记忆网络(deep persistent memory network,MemNet),该网络引入了一个包含递归单元(recursive unit)和门控单元(gate unit)的内存块,以通过自适应学习过程明确地挖掘持续记忆。递归单元学习当前状态在不同接受域(receptive field)下的多层表征(multi-level representation)。这些表征和之前内存块的输出被合并并发送至门控单元,门控单元自适应控制应保留多少先前状态,并决定应储存多少当前状态。他们使用 MemNet 执行三种图像复原任务:图像去噪(image denosing)、超分辨率(super-resolution)和 JPEG 解锁(JPEG deblocking)。实验证明使用 MemNet 的必要性,且它在三种任务上的表现都很优秀,超出当时业内最佳水平。同年,谷歌发布了一种把低分辨率图像复原为高分辨率图像的方法。与最先进的方法相比,这篇论文提出了一种端到端的框架来完成超分辨率任务。它由两个卷积神经网络组成,一个是描述低分辨率图像骨架的优先网络(prior network),一个是用于优化细节特征的调节网络(conditioning network)。这种方法强调了细节特征恢复上的提升,并以概率范式(probabilistic paradigm)的形式提升了其理论。
2018年Guilin Liu,Bryan Catanzaro等人提出使用部分卷积网络,其中卷积被掩蔽并重新归一化为仅以有效像素为条件。他们还设计了一种机制,可自动为下一层生成更新的 mask 作为前向传递的一部分。对于不规则 mask,他们的模型优于其它方法,并通过与其它方法进行定性、定量对比对他们的方法进行了验证。同年,Jaakko Lehtinen,Timo Aila等人将基本统计推理应用于机器学习的信号重构——学习将损坏的观察结果映射到干净的信号上——由此得到一个简单而有力的结论:在某些常见的情况下,可以在不观察清晰信号的前提下学会恢复信号,达到接近或等于使用清晰样本进行训练的性能。他们展示了该技术在图像噪声去除、合成蒙特卡罗图像降噪以及从欠采样输入重建核磁共振扫描中的应用,而所有这些都是基于仅观察损坏的数据。
主要事件
年份 | 事件 | 相关论文/Reference |
1993 | Nitzberg等人提出了一种以图像分割为目的去除遮挡的技术 | Nitzberg, M.; Mumford, D.; Shiota, T. (1993). Filtering, Segmentation, and Depth, Springer-Verlag. |
1995 | Kokaram等人使用运动估计和自回归模型来对相邻帧的电影中的缺损进行插值 | Kokaram, A. C.; Morris, R. D.; Fitzgerald, W. J.; Rayner, P. J. W. (1995). Interpolation of missing data in image sequences. IEEE Transactions on Image Processing. 11(4): 1509-1519. |
1996 | Hirani和Totsuka结合了频率和空间信息,以便用选定的纹理填充给定区域 | Hirani, A.; Totsuka, T, (1996). Combining Frequency and spatial domain information for fast interactive image noise removal. Computer Graphics, pp. 269-276. |
1998 | Masnou和Morel对Nitzberg等人的算法进行了扩展,他们提出了一个一般变分公式 | Masnou, S.; Morel, J. M. (1998). Level-lines based disocclusion. 5th IEEE Int’l Conf. on Image Processing. |
2000 | Coloma Ballester和Marcelo Bertalmio等人介绍了一种新的静态图像修复算法 | Bertalmio, M. et al. (2000). Image inpainting. Proceedings of the 27th annual conference on Computer graphics and interactive techniques. pp417-424. |
2017 | Ying Tai, Jian Yang, Xiaoming Liu, Chunyan Xu提出了一个深度持续记忆网络(deep persistent memory network,MemNet) | Tai, Y.; Yang, J.; Liu, X.; Xu, C. (2017). MemNet: A Persistent Memory Network for Image Restoration. ICCV. |
2017 | 谷歌发布了一种把低分辨率图像复原为高分辨率图像的方法 | Dahl, R.; Norouzi, M.; Shlens, J. (2017). Pixel Recursive Super Resolution. arXiv:1702.00783v2. |
2018 | Guilin Liu,Bryan Catanzaro等人提出使用部分卷积网络,其中卷积被掩蔽并重新归一化为仅以有效像素为条件 | Liu, G. et al. (2018). Image Inpainting for Irregular Holes Using Partial Convolutions. arXiv:1804.07723v1 |
2018 | Jaakko Lehtinen,Timo Aila等人将基本统计推理应用于机器学习的信号重构 | Lehtinen, J. et al. (2018). Noise2Noise: Learning Image Restoration without Clean Data. arXiv:1803.04189v3. |
发展分析
瓶颈
不使用深度学习技术的图像修复方法,一般来说都使用图像剩余部分的统计信息来填补空缺,但这种方法受限于可用的图像统计信息,且不具备视觉语义学的概念。而使用深度学习技术的方法采用卷积滤波器,用固定值替代缺失的内容。结果,这些方法依赖于初始空缺的值,初始空缺的值通常表现为空缺区域缺乏纹理和明显的颜色对比或空缺周围的人工边缘响应。另外一个局限性就是目前存在的大多数算法只关注固定形状的缺失,如矩形,并且其往往位于图像中心。
未来发展方向
深度学习技术是目前图像修复的趋势,使用神经网络来达到更高分辨率、能够应对各种不规则的缺失和在任何部位的缺失的算法将是接下来发展的方向。
Contributor: Yuanyuan Li