Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

让黑白影像重获新生:UC Berkeley 提出实时神经网络着色模型

UC Berkeley 的研究人员近日推出了一种利用深度学习对黑白图像进行实时上色的模型,并开源了相关代码。该研究的论文将出现在 7 月 30 日在洛杉矶举行的 SIGGRAPH 2017 计算机图像和交互技术大会上。


  • 论文链接:https://arxiv.org/abs/1705.02999

  • Demo 和代码链接:https://richzhang.github.io/ideepcolor/


在计算机图形学领域中,一直存在两种为图片上色的方向:用户引导上色和数据驱动的自动上色方式。第一种范式是由 Levin 等人在 2004 年开创的,用户通过彩色画笔在灰度图像中进行引导性上色,随后优化算法会生成符合用户逻辑的上色结果。这种方法可以保留人工上色的部分性质,因而经常会有绝佳的表现,但往往需要密集的用户交互次数(有时超过五十次)。

为了解决这一问题,UC Berkeley 的 Richard Zhang 等人近日开发出了一款利用深度学习为图片进行上色的新方法。据论文介绍,该方法无需大量手动输入,同时也可以实时生成着色效果,为用户提供参考。该方法的演示视频和代码现已公布。


论文:Real-Time User-Guided Image Colorization with Learned Deep Priors


640-18.jpeg


摘要


我们提出了一种以用户引导方式为黑白图片着色的深度学习方法。系统可将灰度图像以及稀疏的本地用户「提示」直接映射到卷积神经网络(CNN)中,输出着色结果。不同于手动定义的规则,该神经网络从大量数据中经过学习后,可通过融合低级线索和高级语义信息来传播用户的编辑。我们训练了一百万张以上图片以模拟用户的输入。为了引导用户进行有效的输入选择,系统会根据输入图像和目前用户的输入提供相应建议。着色是单词前馈传递的,可以进行实时图像处理。在论文中,我们展示了即使用随机模拟的输入信息,推荐系统也可以帮助一名新用户快速对图片进行逼真的着色,并且只需一分钟时间就可以大大提高色彩质量。此外,我们还展示了该框架在工作时利用此前其他用户给出的着色「提示」的能力,并展示了利用有色图片进行风格转换的能力。我们已将该成果的模型和演示图公布。



Demo 视频


640-19.jpeg

图 1. 该方法在灰度图片(左图)的基础上,通过稀疏的用户引导着色(第二张图),可以实现快速生成合理色彩的结果(后三图)。


640-20.jpeg

图 2. 网络架构


该方法同时训练两个变体网络。两个变体都使用图中蓝色层来预测颜色。本地提示网络也使用红色层与用户引导的动作预测颜色分布 Z。全局提示网络使用绿色层,它将全局输入分为 1×1 的卷基层,随后将结果输入主着色网络。每个 box 代表一个卷积层,垂直维度表示特征图空间分辨率,水平维度表示通道数。分辨率的变化通过二次采样和上采样操作来实现。在主网络中,当分辨率降低时,特征通道数量增加一倍。上采样卷基层有快速通道连接。


640-21.jpeg

图 3. 建议调色板


在该方法中,建议颜色可以为任意像素点进行手动着色,建议颜色按照神经网络生成的可能性排序。在上图的例子中,植被的颜色被排在了最前端。右边的六张图是按照建议颜色生成的图片。


640-22.jpeg

图 5. 用户使用结果。新用户在实验中仅需一分钟即可掌握着色技巧。


640-23.jpeg

图 7. 非常规着色。通过非正常着色的手动引导,神经网络可以生成用户想要的特殊结果。


640-24.jpeg

图 9. 使用全局提示网络进行的风格迁移式着色,右上小图为参考图。


640-25.jpeg

图 10. 该方法对几张经典历史照片的处理结果。


目前,用户使用这种方法需要以点输入的形式对神经网络进行引导。论文作者表示,他们将在下一步研究中加入更加符合人们习惯的笔画式输入,以进一步提高效果。 机器之心icon.png

理论神经网络UC Berkeley论文风格迁移理论
1
能否请教一下ideepcolor的训练方法呢?我想训练一下自己的数据