2018/07/24 18:09

CVPR 2018：GAN、自动驾驶等技术和应用正强势来袭

编者按：计算机视觉领域的顶级会议CVPR 2018上个月在美国盐湖城举办。微软亚洲研究院实习生鲍建敏参与了这次CVPR 2018之旅，为我们带回了本次大会上新鲜出炉的计算机视觉前沿研究和他的参会成果分享。

2018年6月18日至22日，计算机视觉的顶级会议CVPR 2018在美国的犹他州首府盐湖城（Salt Lake City）举办。

本届CVPR吸引了来自世界各地的3309篇论文投稿，最终录用论文979篇，投稿数量和接受数量都创下了历史新高。本届大会的论文涉及的内容也非常广泛，涵盖三维视觉、机器学习与视觉、物体识别与理解、计算机视觉理论、视频分析、计算机视觉应用、低中层视觉等等多个热门计算机视觉领域。除了如火如荼的论文投稿，本届CVPR的注册参会人数也达到了破纪录的6512位，会场坐满了来自世界各地的学者们。

主会场盛况

除了盛况空前的会场，论文海报区也是人山人海，大家都热情地向参会来宾分享自己的研究成果。

今年，微软亚洲研究院视觉计算组共有7篇文章发表在CVPR 2018上，分别与风格迁移、图像/视频目标检测、图像分解、高效CNN架构、GAN等方向相关：

· Dongdong Chen; Lu Yuan; Jing Liao; Nenghai Yu; Gang Hua. “Stereoscopic Neural Style Transfer”.
· Shuyang Gu; Congliang Chen; Jing Liao; Lu Yuan. “Arbitrary Style Transfer With Deep Feature Reshuffle”.
· Han Hu; Jiayuan Gu; Zheng Zhang; Jifeng Dai; Yichen Wei. “Relation Networks for Object Detection”.
· Xizhou Zhu; Jifeng Dai; Lu Yuan; Yichen Wei. “Towards High Performance Video Object Detection”.
· Qingnan Fan; Jiaolong Yang; Gang Hua; Baoquan Chen; David Wipf. “Revisiting Deep Intrinsic Image Decompositions”.
· Guotian Xie; Jingdong Wang; Ting Zhang; Jianhuang Lai; Richang Hong; Guo-Jun Qi. “Interleaved Structured Sparse Convolutional Neural Networks”
· Jianmin Bao; Dong Chen; Fang Wen; Houqiang Li; Gang Hua. “Towards Open-Set Identity Preserving Face Synthesis”

中科大与微软亚洲研究院联合培养博士古纾旸同学在分享论文成果

随着计算机视觉技术的发展，CVPR在工业界的影响力也是越来越大，今年的大会共吸引了100多家企业赞助与参会。展台区更是热闹非凡，微软也在会场也设有一个偌大的展台，展示了CVPR 2018中微软参与的工作以及它们的技术演示。其中有HoloLens推出的针对研究人员开放的研究模式，及其HoloLens在计算机视觉的研究任务中使用，同时还演示了如何高效地设计，开发，维护一个针对计算机视觉问题的系统。

科技范十足的微软展台

在展台区展示的众多技术中，自动驾驶技术无疑是本届CVPR 2018的新宠儿，许多自动驾驶公司都将自己的汽车开到了会场中。

现场展示的自动驾驶汽车

最佳论文

本届CVPR的最佳论文奖颁给了斯坦福大学（Stanford University）和加州大学伯克利分校（UC Berkeley）的Amir R. Zamir等。他们提出了一个解决多视觉任务的框架Taskonomy，尝试使用任务之间的相关性来避免重复学习，从而使得模型可以使用更少的数据来学习相关的任务。

为了找到最优的学习策略，Taskonomy采用了量化视觉任务相关性的方法。如果两个视觉任务A和任务B之间具有相关性，那么在学习过程中，任务A和任务B可以相互帮助对方学到更好的表达。举个例子，任务A是物体检测，任务B是物体分割，这两个典型的视觉任务在Mask-RCNN中被验证他们可以相互帮助，相互提升对方的准确率。Taskonomy通过迁移学习计算了26个不同视觉任务的相关性，基于这些相关性，我们可以得到对于一组任务的最优学习策略。

论文链接：http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf

今年的最佳学生论文奖（Best Student Paper Award）由来自卡耐基梅隆大学（CMU）的Hanbyul Joo等获得。该研究提出了一种3D的可变形模型，除了能够追踪身体的整体动作，它还能够追踪人们脸上的表情、手势等微小的动作。

为了实现这样的运动追踪，他们提出了Frank模型和Adam模型两个模型，Frank模型可以将人体各部位的模型进行局部组合，并能通过单个无缝模型完整表达人体部位的动作，包括人脸和手的动作。Adam模型与初始模型具备同样的基础层级，但是它可以表现头发和衣服的几何形状，直接查看衣服和人是否相配。两个模型结合在一起不仅可用于整体动作追踪，而且可以同时捕捉一个人的大规模身体动作和细微的面部、手部动作。

论文链接：https://arxiv.org/pdf/1801.01615.pdf

大会热门：生成对抗网络（GAN）

在本届CVPR的参会论文中，生成对抗网络（GAN）是引人关注的一大热门技术，被应用于图片合成、风格迁移、小脸检测、图片去雾等越来越多的问题中。生成对抗网络由Ian Good fellow首先提出，在近四年的发展中，GAN在越来越多的领域中发挥着至关重要的作用，越来越多的人认为GAN正在取代深度学习，成为新的关注焦点。

GAN由生成网络G和判别网络D两个网络构成。在训练过程中，判别网络D尝试对生成网络G生成的图片和真实图片进行分类，生成网络G则尽可能使自己生成的图片接近真实图片，使判别网络D难以辨别生成图片和真实图片，这样就形成了对抗的局面，最后的训练结果是判别网络D无法辨别生成网络G生成的图片，生成网络G生成图片的数据分布和真实数据的分布达到一致。GAN网络原理如下图所示。

由于GAN在深度学习领域的火热，与GAN相关的论文也是层出不穷。过去三年里，光是名字中带有GAN的论文就呈现出指数型增长态势。

（图片来自：https://github.com/hindupuravinash/the-gan-zoo）

GAN的研究项目如此之多，要归功于它广泛的应用场景。

首先，GAN可以用于简单的基于条件生成图片，比如由文字描述去生成图片，比如由一段鸟的描述去生成鸟。如下图中CVPR 2018论文“AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks”的结果，AttnGAN在GAN中引入attention的概念，使网络能够更加有重点地生成图片，生成结果将更加清晰、自然。

论文链接：https://arxiv.org/pdf/1711.10485.pdf

其次，GAN可以用于转换存在对应关系的图片。例如将标签转换为实景，将灰度图片转换为彩色图片，将航拍地图转换为二维地图等等。

下图是CVPR 2018论文“High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs”的结果，从街景标签到街景实景的生成过程使用了由粗粒度到细粒度的思想，先生成低分辨率的图片，然后再逐步生成高分辨率的图片。

论文链接：https://arxiv.org/abs/1711.11585

另外，GAN还可以被用于小脸检测。对于图片中我们感兴趣的区域，可以利用GAN来进行放大，从而更好地判断该区域是否存在人脸，提升小人脸检测的准确率。如下图中CVPR 2018论文“Finding Tiny Faces in the Wild with Generative Adversarial Network”结果所示。

论文链接：http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/0565.pdf

保留身份信息的人脸合成技术

在本届CVPR上，微软亚洲研究院视觉计算组也利用GAN网络贡献了一些有趣的研究。在论文“Towards Open-Set Identity Preserving Face Synthesis”中，我们希望解决开放数据集中人脸生成的问题，合成保留图中人脸原始特点的图像。如下图所示：

针对一张输入的人脸图片，我们希望从中得到身份和属性信息。在这个例子中，A（蒙娜丽莎）和B（赫本）为输入，我们的模型从A和B中分别得到身份信息和属性信息，然后通过重组，得到一个和原赫本图片相同属性的蒙娜丽莎图片A’，和一个和原蒙娜丽莎图片相同属性的赫本图片B’。

为了实现这种“改头不换面”的效果，我们提出了一个基于GAN的框架，如下图所示：

其中，I网络用来提取图片的身份信息，A网络用来提取网络的属性信息，G通过提取的信息生成一张新的图片，C网络用来保证生的图片和提供身份信息的图片的身份信息一致，D网络用来保证生成的图片是一张真实的图片。

通过在MS-Celeb-1M上的训练，我们的模型能够在开放数据集上生成保持身份信息的图片。在开放数据集上得到的结果如下图所示：

图中，(a)是提供身份信息的图片，(b)是提供属性信息的图片，(c)是模型生成的结果，同一行的图片具有相同的身份信息，同一列的图片具有相同的属性信息。从生成图片中可以看到，我们的模型既保持了与(a)相同的身份信息，又保持了与(b)相同的属性信息。

论文链接：https://arxiv.org/pdf/1803.11182.pdf

CVPR作为计算机视觉的顶级会议，正吸引着越来越多的来自学术界和工业界的关注。会场里随处可见的学术大牛，不期而遇的昔日好友，展台区各家公司的黑科技和领不完的礼物，世界杯期间会场还贴心地同步比赛直播，这样的CVPR，让人去了还想去。

微软研究院AI头条

专注科研19年，盛产黑科技

产业CVPR 2018GAN自动驾驶

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

条件生成式对抗网络技术

生成对抗网络是一个训练产生式模型的框架。原始的GAN能够训练一个非条件的产生式模型，它对产生数据的模式没有加以控制。给原始的GAN模型中加入条件约束，使得引导数据产生的过程成为可能，这样的GAN网络称为条件生成式对抗网络。其中，添加的条件可以是类别标签，或者是其他模态的数据等。下图所示为条件生成对抗网络的基本结构，从中可以看出，该模型的关键是在生成器和判别器中分别加入条件作为输入。一个简单的应用例子是以数字类别标签作为条件，训练产生式模型使之能够根据给定的标签产生特定的数字。条件生成式对抗网络能够应用于跨模态问题，例如图像自动标注。

来源：Conditional Generative Adversarial Nets

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks