Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Mingming He、Dongdong Chen、Jing Liao、Pedro V. Sander、Lu Yuan作者高璇 蒋思源编译

这种两阶段深度着色模型,为黑白照披上了彩衣

图像着色一直是比较困难的任务,近日港科大、中科大和微软研究提出了一种结合了图像检索与图像着色的模型。该模型首先会从大量参照图像中检索和灰度图相似的图像,然后再将该参照图像的配色方案迁移到灰度图中。这种深度模型实现了非常好的着色效果,感兴趣的读者也可以查看原论文与 GitHub 项目。

图像着色的目的是为灰度图像增添色彩,使图像更具视觉感知力和吸引力。由于图像的灰度像素可以被输入许多种颜色(例如树叶可能是绿色、黄色或棕色),所以这个问题难以解决,它本质都是模棱两可的。因此目前没有唯一正确的解决方案,人工介入往往在着色过程中起着重要的作用。

引导着色的手动标注信息通常有两种形式:用户引导的涂鸦或样本参照图。在第一种形式中,为了得到可信的结果,必须仔细选择涂鸦或调色板的颜色。这需要丰富的经验和良好的审美,因此对于未经训练的使用者来说是一个挑战;在第二种形式中,为了便于处理,我们需要给出了与灰度图同类的彩色图作为色彩基准。为了抽取这种色彩基准,首先需要建立对应关系,然后在最可靠的对应关系上传播色彩。然而,结果的质量很大程度上取决于参照图片的选择。光照、视角、内容不一致等因素会导致参照和目标间有巨大差异,进而误导着色算法。

利用巨大的参考图像数据库搜索最相似的图像块或像素进行着色不失为一种可靠的方法。最近,深度学习技术在大型数据建模方面多有建树。图像着色问题可以被看作回归问题,并利用深度神经网络直接求解。目前很多方法都可以全自动地给新照片附色,无需任何参考,但是这些方法都无法实现多模态着色 [Charpiat et al. 2008]。他们的模型主要利用从数据中学到的主色调,阻碍了使用者对其它色调的选择与使用。另一个缺点是,这些模型必须在一个涵盖所有可能参考图像的巨大数据库中进行训练。

最近的研究都试图在交互的可控性和学习的鲁棒性两方面都做到最好。Zhang 和 Sangkloy 等人在深度神经网络中以色点和笔画的形式添加人工信息,以便为用户推荐绘制时最可能需要的颜色。这极大促进了传统基于涂鸦的交互,并实现了通过大规模数据学习到更自然的颜色。然而,涂鸦对于获得高质量的结果仍然必不可少,所以还需要一定的试错。

本文中采取了另一种类型的混合解决方案。研究者提出了第一种基于样本的局部着色方法。与现有的着色网络相比,该网络可以通过选择不同的参照图来控制着色的输出。如图 1 所示,参考图像可能与目标相似也可能不同,但最后总能得到差不多的色彩结果,这些颜色在视觉上忠于参照图,并且色彩也非常有意义。

图 1:黑白照片着色结果。研究人员通过提供不同的参照图片,能为目标图像生成多个贴近真实的着色效果。

为了实现这一目标,研究者提出了一个卷积神经网络(CNN),它可以从对齐的参照图像中直接选择、传播和预测灰度图像颜色。此方法在质量上优于已有基于样本的方法,它的成功之处在于使用基于样本着色框架中的两个新型子网络。

首先,相似性子网络(Similarity sub-net)是着一种预处理步骤,它为端到端着色网络提供了输入。相似性网络度量的是在灰度图像目标识别任务中,利用 VGG-19 网络预训练的参照图和目标图间的语义相似性。与之前基于低级特征的度量比,它为不同的语义图像提供了更具鲁棒性和可靠性的相似性度量。

然后着色子网络(Colorization sub-net)为相似或不同的块/像素对提供更一般的着色方案。它利用多任务学习训练两个不同的分支,两个分支共享相同的网络和权重,但损失函数不同:1)色度损失(Chrominance loss),激励网络选择性传播满足色彩一致性的相关块/像素;2)感知损失(Perceptual loss),使着色结果和真色彩图像在高级特征表示空间上紧密匹配。即使在参照图中没有合适匹配区域的情况下(参见图 2),也能确保从大规模数据中学习到适当的着色。因此,该方法与其它基于样本的方法不同,它可以大大放宽需要选择良好参照图的限制。

图 2:目标是有选择地向相关图像块/像素传播正确参照图颜色(红点表示),并在参照图中没有合适匹配区域(红色轮廓线表示)时,从大规模数据中预测自然的颜色。

为引导使用者进行有效的参照图选择,系统会根据本文所提出的图像检索算法推荐最可能的参照图。它利用高级语义信息和低级亮度统计信息来搜索 ImageNet 数据集中最相似的图像 [Russakovsky et al. 2015]。在这个检索算法的帮助下,研究者提出的方法可以看作一个全自动着色系统。实验表明,该自动着色系统在数量和质量上都优于现有的着色方法,甚至可以和当前最先进的交互方法 [Zhang et al. 2017; Sangkloy et al. 2016] 产生的高质量结果相媲美,此方法也可以扩展到视频着色。

研究成果如下:(1)提出第一个基于样本着色的深度学习方法,它具备可控性并对参照图的选择有鲁棒性。(2)提出一种全新的端到端双支路网络架构,当无法获取优秀的参照图时,模型会联合学习有意义的参照图局部着色和近似合理的色彩预测。(3)提出用于推荐的参照图像检索算法,也可用于实现全自动着色。(4)提出一种能迁移到非自然图像的方法,即使网络只在自然图像训练集上训练。(5)可以扩展到视频着色。

论文:Deep Exemplar-based Colorization

摘要:我们提出了第一个基于样本的局部着色深度学习方法。当给定一个参照彩色图像时,我们的卷积网络将直接将灰度图像映射到输出的彩色图像中。与传统基于样本方法的手动标注规则不同,我们的端到端着色网络会学习如何从大规模数据中选择、传播和预测颜色。即使参照图像与输入灰度图像无关,该方法仍然有较强的鲁棒性和泛化能力。更重要的是,与其他基于学习的着色方法不同,我们的网络允许使用者简单地输入不同参照图片,就可实现对应的结果。为了进一步减少人工选择参照图像的工作量,系统采用我们提出的图像检索算法自动推荐参照图像,该检索算法同时兼顾到语义信息和亮度信息。通过简单地选取推荐参照图像,即可实现全自动着色。通过用户调查和与目前最优方法定量比较,我们对该方法进行了验证。此外,我们的方法可以自然地拓展到视频着色。代码和模型都会开源给大家。

图 3:系统结构图(推断阶段)。该系统由两个子网络构成。相似性子网络作为预处理步骤使用 Input 1,Input 1 包含两个分别来自目标图和参照图的亮度通道 T_L 和 R_L、双向映射函数Φ_(T↔R) 和两个来自参照图像的亮度通道 R_ab。相似性子网络计算了双向相似映射 sim_(T↔R) 和与参照对应的色度通道 R'_ab,两者连同 T_L 作为 Input 2 输入到着色子网当中。着色子网是一个用来预测目标色度通道的端到端 CNN,结合 TL 生成最终的着色结果 P_Lab。

图 10:我们的方法在不同参照图中的着色表现:手动选择、自动推荐、在同等目标中随机选择、在同类中随机选择、在同类之外随机选择。输入图像基本都选自 ImageNet 数据集,除了 Andreas Mortonus/flickr 和 Indi Samarajiva/flickr 的两张参照图片。

图 12:在 ImageNet 上训练的着色网络的迁移能力比较。输入图像(从左到右,从上到下):Charpiat et al. [2008], Snow64/wikimedia 和 Ryo Taka/pixabay。

图 14:与基于学习的方法进行比较。输入图像:ImageNet 数据集。

图 9:包含手动阈值选择颜色样本和交叉匹配的端到端网络与 Zhang 等人着色方法对比。输入图像:ImageNet 数据集。

理论图像处理
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

多任务学习技术

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~