2017/05/10 11:14

让黑白影像重获新生：UC Berkeley 提出实时神经网络着色模型

UC Berkeley 的研究人员近日推出了一种利用深度学习对黑白图像进行实时上色的模型，并开源了相关代码。该研究的论文将出现在 7 月 30 日在洛杉矶举行的 SIGGRAPH 2017 计算机图像和交互技术大会上。

论文链接：https://arxiv.org/abs/1705.02999
Demo 和代码链接：https://richzhang.github.io/ideepcolor/

在计算机图形学领域中，一直存在两种为图片上色的方向：用户引导上色和数据驱动的自动上色方式。第一种范式是由 Levin 等人在 2004 年开创的，用户通过彩色画笔在灰度图像中进行引导性上色，随后优化算法会生成符合用户逻辑的上色结果。这种方法可以保留人工上色的部分性质，因而经常会有绝佳的表现，但往往需要密集的用户交互次数（有时超过五十次）。

为了解决这一问题，UC Berkeley 的 Richard Zhang 等人近日开发出了一款利用深度学习为图片进行上色的新方法。据论文介绍，该方法无需大量手动输入，同时也可以实时生成着色效果，为用户提供参考。该方法的演示视频和代码现已公布。

论文：Real-Time User-Guided Image Colorization with Learned Deep Priors

摘要

我们提出了一种以用户引导方式为黑白图片着色的深度学习方法。系统可将灰度图像以及稀疏的本地用户「提示」直接映射到卷积神经网络（CNN）中，输出着色结果。不同于手动定义的规则，该神经网络从大量数据中经过学习后，可通过融合低级线索和高级语义信息来传播用户的编辑。我们训练了一百万张以上图片以模拟用户的输入。为了引导用户进行有效的输入选择，系统会根据输入图像和目前用户的输入提供相应建议。着色是单词前馈传递的，可以进行实时图像处理。在论文中，我们展示了即使用随机模拟的输入信息，推荐系统也可以帮助一名新用户快速对图片进行逼真的着色，并且只需一分钟时间就可以大大提高色彩质量。此外，我们还展示了该框架在工作时利用此前其他用户给出的着色「提示」的能力，并展示了利用有色图片进行风格转换的能力。我们已将该成果的模型和演示图公布。

Demo 视频

图 1. 该方法在灰度图片（左图）的基础上，通过稀疏的用户引导着色（第二张图），可以实现快速生成合理色彩的结果（后三图）。

图 2. 网络架构

该方法同时训练两个变体网络。两个变体都使用图中蓝色层来预测颜色。本地提示网络也使用红色层与用户引导的动作预测颜色分布 Z。全局提示网络使用绿色层，它将全局输入分为 1×1 的卷基层，随后将结果输入主着色网络。每个 box 代表一个卷积层，垂直维度表示特征图空间分辨率，水平维度表示通道数。分辨率的变化通过二次采样和上采样操作来实现。在主网络中，当分辨率降低时，特征通道数量增加一倍。上采样卷基层有快速通道连接。