2018/12/30 18:53

晓星作者

AI技术在智能海报设计中的应用

背景

在视觉设计领域中，设计师们往往会因为一些简单需求付出相当多的时间，比如修改文案内容，设计简单的海报版式，针对不同机型、展位的多尺寸拓展等。这些工作需要耗费大量的时间、人力成本（5~6张/人日），但对设计师的进步成长起到的作用却非常有限。另一方面，精准营销是未来的大趋势，在大流量背景下，首页的海报资源展位需要展示“千人千面”的效果，这对海报的生产效率也提出了非常高的要求。所以，我们美团外卖技术团队尝试结合AI技术，来协助设计师避免这种低收益、高重复的任务，同时低成本、高效率、高质量地完成海报图片的生成。本文以Banner（横版海报）为例，介绍我们在海报设计与AI技术结合方面所进行的一些探索和研究。

分析

什么是Banner的设计过程？我们尝试总结了对Banner设计的理解，Banner的设计过程是一系列的具备某种特征属性的素材图层的有序叠加过程。这里的特征属性既包括颜色、形状、纹理、主题等视觉属性，也包括位置、大小、贴边等空间属性。在这个过程中，哪些环节可以被机器算法所探索呢？文献[1]研究了如何调整图像的颜色分布，使杂志封面的视觉效果更加符合人眼的视觉特性；文献[2]以此为基础，引入了基于显著性识别的图像裁剪，并使用优化方法来解决布局问题。阿里巴巴的鹿班系统在去年双十一当天，生成1.7亿张Banner；京东内部也在孵化玲珑和莎士比亚系统，更加智能地设计文案和Banner。

图1 封面配色&布局设计[2]

在设计领域的一些子问题上，可以用算法来挖掘出数据背后的规律（如图1所示）。那么，能否构建一个完整的学习算法和处理系统，统一解决Banner设计中所有的子问题（配色、布局、搭配、生成）呢？

技术方案

素材图层是Banner的基础元素，其本身可以被特征化，同时组成Banner的若干元素间的叠加顺序可以被序列化，因此，算法实际是在学习“在什么时候，选择某种素材，放在哪里”。

图2 流程框架

如图2所示，为了解决这个问题，我们设计规划器、优化器、生成器来共同构建海报设计的学习与生产过程。其中：

1. 规划器从数据中学习设计师对不同风格下的设计习惯与规律；

2. 优化器基于美学质量和设计原则，对前者的输出结果做精细化调整；

3. 最后，由生成器选取/生成素材并渲染成图；

4. 素材库作为这三个环节的基础，负责素材管理和素材标签化。

素材库

如何提取素材图片的特征属性，这是比较典型的分类问题。在计算机视觉领域，传统方案是提取图像的颜色、梯度等低级语义特征[3]，结合传统的分类器（LR、SVM等）来实现分类。近年来，基于深度学习的方法因为能表达更为复杂的语义特征，逐渐成为主流方法[4]。如图3所示我们提取传统的低级语义特征，以及基于CNN的高级语义特征，来共同完成素材特征属性提取。

图3 素材库-特征提取

规划器

完成素材的数据化工作后，怎样学习Banner的设计过程？

作为一种生成模型，对抗生成网络（GAN）[5]在近年广为应用，其优势是可以端到端地训练图像生成模型，但在我们的应用场景下，GAN存在以下两个问题：

1. GAN的过程更像是“黑盒”的过程：输入方面，虽然Conditional-GAN之类的方法可以实现某种程度有条件地可控生成，但对于Banner设计任务来说，其输入信息（文案、目标风格、主体信息）仍然过于复杂；

2. 输出方面，GAN直接生成源数据（即图像），但非常缺乏解释性。我们需要的是更加直观、更有解释性的信息，比如素材的类型、颜色、轮廓、位置等。

在上文中有提到，Banner设计过程是素材图层依次叠加的过程。因此，我们可以用序列生成模型来拟合这个过程[6]。在建模过程中，我们把素材视作词汇（Word），海报视作句子（Sentence），词汇索引视为离散化的特征索引，素材叠加顺序就可以视为句子中的词顺序[7]。

图4 规划器-序列生成

图4是我们使用的序列生成模型，输入主体信息和目标风格，输出素材特征的序列。为了增强预测过程中多条路径结果的多样性，我们在监督性地训练每个时刻的输出之外，还引入了评估整个序列合理性的Object loss。如图5所示，借鉴SeqGAN的思想，Object loss可以由判别器来提供[8]。

图5 SeqGAN[8]

优化器

规划器预测素材的量化特征，为了确保最终成图符合美学标准，需要一个后处理的过程（图6）。我们用优化器来解决这个问题。从本质上讲，这是一个优化过程。通过和设计师们的沟通，我们设计了一些基于常规设计理念和美学标准的目标函数，动作集合包括移动、缩放、亮度调整等，结合优化方法，提升Banner的视觉效果。

图6 优化器

生成器

优化后的素材特征序列，通过生成器来渲染成图。如图7所示，对于素材库检索不到符合某种特征属性的素材的情况，我们设计了图像风格迁移的方法来实现图像特征迁移。这里的特征可以是颜色、形状、纹理等低级特征，也可以是某种语义化的视觉风格特征，对后者来说，可以将源图像的内容Content和目标图像的风格Style在某种特征空间（CNN中的某一层）里做融合，实现风格迁移[9,10]。

图7 素材生成

应用场景及功能拓展

“千人千面”的精准营销是未来营销策略的趋势，这对商品素材的丰富性提出了非常高的要求；从为商家赋能的角度来说，也需要为商家提供更多样的海报版式，这也要求系统具备海报风格的快速学习能力和拓展能力。对此，在常规设计风格的研究之外，我们从以下3个方面做了一些拓展研究。

主体图片加工

商品素材的丰富度与美学质量是精细化营销及海报美学质量非常重要的一环。其中最核心的要求是图像分割的能力[11,12]。以全卷积网络（FCN）为基础，如图8所示，我们采取以下几个在目标分割领域常见的技巧，来实现商品图片的目标分割：

1. Encoder-Decoder结构

2. 空洞卷积

3. 多尺度特征融合

4. Two-Stage微调网络

图8 图像语义分割&抠图（结构图部分参考DeepLab v3+[12]）

这种基于语义分割方法的结果，在专业设计师人工评审质量的过程中，发现主体边缘有时会出现明显的锯齿感。经过分析，我们认为有以下两个原因：

1. 语义分割模型把问题建模为一个“像素级分类过程”，每一个像素的类别都天然地被假设为“非此即彼”，大多数的Segmentation模型都采用Cross-Entropy作为损失函数；

2. 因此，无论是从模型结构（CNN）还是从损失函数的角度来说，分割模型会更倾向于全局信息从而丢弃局部结构信息，导致只能得到边缘比较粗糙的分割结果。

为此，如图8所示，我们在图像分割的输出结果之外，结合了Image Matting方法：

1. 对分割模型的输出结果做形态学变换，生成三值Trimap，分别表示前景区、背景区、未知区；

2. 应用常规的Matting方法，比如Bayesian、Close-Form等，以原图像和Trimap图像为输入，输出前景图的Alpha通道；

3. Matting可以使前景主体的边缘更加平滑，视觉质量更高（图9）。

图9 商品主体抠图

另外，基于图像美学质量评分模型，我们会优先选择质量分高的图片作为主体素材来源。对中低分的图片，未来可以考虑借鉴Cycle-GAN[13]的思想，设计基于半监督和GAN的图像增强网络，美化后再经过图像分割产生主体素材。

海报模板拓展

上述的常规设计风格的学习属于一种广义的设计风格，需要设计师先期投入很多精力做风格划分以及数据收集、处理。为了快速适配热点场景，我们借鉴图像检索技术(如图10所示)，提取素材图片的CNN特征及颜色特征，使用欧式距离来度量素材相似度，这能节省人工打标签的成本，实现基于固定模板的自动拓展及生成（海报临摹）。

图10 素材图像检索与模板拓展

多分辨率拓展

在日常工作中，设计师在设计出Banner后，往往要花费很长时间对不同展位、不同版本、不同机型做多尺寸适配（如图11所示）。能否用算法来协助人工提效？在素材已经确定，并且相互的位置关系近乎确定的条件下做多分辨率适配，这本质上是一个优化问题，我们在上文布局优化器的基础上，增加元素的局部相对位置与全局绝对位置的拓扑关系作为目标函数。目前，系统支持在某个固定宽高比±30%范围内的任意分辨率适配，未来会进一步扩大适配范围。

图11 多分辨率拓展

总结

目前，我们的Banner智能设计系统为钻展（外卖首页广告位）、商家店铺装修等业务提供稳定的设计能力；素材加工等子能力也在为外卖、闪购等商品图片提供技术支持。后续我们会从扩展常规设计风格、语义相关的颜色及素材挖掘、自动解析数据、构建自评估学习闭环等方面继续研究，进一步提高算法的设计能力和适用性，尽可能协助设计师提高效率，降低高重复性工作的时间和经济成本。

参考文献

[1] A. Jahanian, J. Liu, D. Tretter, Q. Lin, E. O’Brien-Strain, S. Lee, N. Lyons, and J. P. Allebach. "Automatic Design of Colors for Magazine Covers". In Proc. IS&T/SPIE Electronic Imaging, International Society for Optics and Photonics, 2013

[2] X. Y. Yang, T. Mei, Y. Q. Xu, Y. Rui, S. P. Li. "Automatic Generation of Visual-Textual Presentation Layout". ACM Transactions on Multimedia Computing, Communications, and Applications, 2017

[3] David G. Lowe. "Distinctive Image Features from Scale-Invariant Keypoints". International journal of computer vision, 2004

[4] Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks". NIPS, 2012

[5] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio. "Generative Adversarial Networks". NIPS, 2014

[6] K. Kawakami. "Supervised Sequence Labelling with Recurrent Neural Networks". Studies in Computational Intelligence, 2008

[7] T. Mikolov. "Statistical Language Models based on Neural Networks". 2012

[8] L. Yu, W. Zhang, J. Wang, Y. Yu. "SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient". AAAI, 2017

[9] L.A. Gatys, A.S. Ecker, M. Bethge. "Image Style Transfer Using Convolutional Neural Networks". CVPR, 2016

[10] Y. Li, M.Y. Liu, X. Li, M.H. Yang, J. Kautz. "A Closed-form Solution to Photorealistic Image Stylization". ECCV, 2018

[11] J. Long, E. Shelhamer, T. Darrell. "Fully Convolutional Networks for Semantic Segmentation". CVPR, 2015

[12] L.C. Chen, Y. Zhu, G. Papandreou, F. Schroff, H. Adam. "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation". ECCV, 2018

[13] J.Y. Zhu, T. Park, P. Isola, A. A. Efros. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks". ICCV, 2017

美团技术团队

在美团，我们信仰耐心和坚持的力量，愿意持续去做一些正确、有积累、可能表面看上去不那么重要实则非常关键的事情。

工程计算机视觉AI设计师GAN优化器

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看，图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程，即把属于同一区域的像索赋予相同的编号。

来源：百度百科

全卷积网络技术

全卷积网络最开始在论文 Fully Convolutional Networks for Semantic Segmentation（2015）中提出，它将传统卷积神经网络最后几个全连接层替换为卷积层。引入全卷积的意义在于它能实现密集型的预测，即在二维卷积下对图像实现像素级的分类，在一维卷积下对序列实现元素级的预测。

来源：机器之心

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法，以便可以对注释词执行检索。手动图像注释耗时，费力且昂贵; 为了解决这个问题，人们已经对自动图像标注进行了大量研究。

来源：Image retrieval

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

来源：Wikipedia

语义分割技术

语义分割,简单来说就是给定一张图片，对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支，是机器视觉技术中关于图像理解的重要一环。

来源：CSDN博客

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

图像增强技术

图像增强技术用于增强图像中的有用信息，它可以是一个失真的过程，其目的是要改善图像的视觉效果，针对给定图像的应用场合。它通过有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣的特征，使之改善图像质量、丰富信息量，加强图像判读和识别效果，满足某些特殊分析的需要。

来源：百度百科

空洞卷积技术

空洞卷积最大的特性就是扩张感受野，它不是在像素间插入空白像素，而是略过一些已有的像素。当然，我们也可以理解为保持输入不变，并向卷积核中添加一些值为零的权重，从而在计算量基本不变的情况下增加网络观察到的图像范围或序列长度。

来源：机器之心

优化器技术

优化器基类提供了计算梯度loss的方法，并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法，如梯度下降和Adagrad。优化器是提供了一个可以使用各种优化算法的接口，可以让用户直接调用一些经典的优化算法，如梯度下降法等等。优化器（optimizers）类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类，但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer（tensorflow下的优化器包）等等这些算法。

来源：维基百科