2018/07/07 11:38

万纬韬作者

CVPR 2018现场见闻

关于作者：万纬韬，本科毕业于清华大学电子工程系，现于清华大学信息认知与智能系统研究所攻读博士二年级，主要研究方向包括基于深度学习的人脸检测与识别，对抗样本，图像语义分割。

计算机视觉顶级会议 CVPR 于 2018 年于 6 月 18 日在美国盐湖城召开。一年一度的 CVPR 收录了来自全球学者的最新研究，这里不仅是学术界交流的盛会，还是产业界展示成果的平台。随着算法与硬件的飞速发展，计算机视觉、人工智能等技术在我们的生产和生活中的应用越来越普及，与此同时，CVPR 会议本身也在不断地发展和变化。

CVPR 如同一个风向标，向我们展示了在最近一年里该领域的关注热点和最优秀的成果。笔者全程参与了本届 CVPR 会议，在这里与大家分享本届会议的特点、最新的研究热点和该领域相关企业的动向。

会议规模显著扩大

今年 CVPR 的论文投递数逾 3359 篇，相比去年增长约 25%。而论文接收率几乎不变（约 29%），最终被接收的论文多达 979 篇。从如此大量的论文中挑选出符合 CVPR 品质的论文绝非易事，会议组织了 2385 名来自世界各地的优秀审稿人进行评审。同时，参会人数多达 6500 余人，比去年增长约 30%。

因此，正如会议的 general chair，Michael Brown 教授所说，参会者不可能在 5 天的时间里顾全所有的事情，你必须做出取舍，这样才能充分的利用时间。的确如此，在主会议期间，每天都会并行地开展 3 场 oral/spotlight 报告，参会者需要提前了解并从中选择自己最感兴趣的话题来听。

▲ 图说：CVPR的参会人数和投稿数都出现了大幅增长

除了论文数量明显增长，今年赞助商的数量和赞助金额也明显增长。会议拥有来自全世界的 149 家赞助商，共接收赞助/展示费用达 200 万美元。可以看到，产业界对 CVPR 这一学术会议显示出了极大的兴趣，这也从侧面反映了计算机视觉、人工智能等方面的研究在实际场景中有巨大应用价值。赞助商除了在会场以丰富的形式展示各自的产品和研究成果以外，还提供了大量的招聘和实习岗位，希望吸引来自该领域的精英加入他们。一部分参会者就是冲着这些名企的招聘来，对他们来说这里也相当于是一场招聘会。

值得注意的是，无论是论文发表还是赞助商方面，华人都贡献了巨大的力量。在已接收的论文中，华人作者所占比重相当可观。在 9 家钻石赞助商中，中国企业就有 3 家；在 20 家铂金赞助商中，中国企业占到 9 家。一个最直观的感受是，在会议现场，中国人面孔非常普遍。在参加 poster 展览时，常常一篇 poster 面前全是中国学者，这个时候作者也许会索性用中文给大家讲解。参会的人面前都挂着自己的名牌，上面写有姓名和学校/单位，会议现场常常有人看了一眼笔者的名牌，然后就开始用中文打招呼。在这种氛围下，虽然身处美国，也有一种宾至如归的感觉。

企业参与度极高

相关领域的企业通过多种方式深度参与了本次会议。

首先，在主会期间，大量赞助商在会场展示区通过多种形式展示了各自的研究和应用。有以视频 Demo 形式展示的，比如字节跳动（ByteDance），他们以世界杯比赛视频为例展示了基于计算机视觉的足球比赛理解技术。该技术能够对球员和足球进行实时的追踪和分割，并且能自动生成鸟瞰图。目前正值俄罗斯世界杯期间，这样的展示很容易吸引参观者围观。公司旗下的短视频应用非常火爆，他们也展示了对于短视频中多人物的实时姿态检测，以及基于这些技术的有趣应用，比如抖音尬舞机，让人印象深刻。

▲ 字节跳动的系统可以基于计算机视觉，理解足球比赛技术

现场还有以视频或实体模型形式来展示的公司，比如 Momenta、图森科技、AURORA 等。京东展示了仓库巡逻机器人等无人仓库场景下的智能产品。还有以用户互动形式来展示的公司，比如商汤科技允许用户坐在模拟驾驶位，展示其对司机驾驶状态、目光注意力以及司机手势的识别能力；Adobe 则允许用户在触摸板上画出一个人像，然后算法会对其自动上色。会场中，各个企业展示了涵盖智能监控、自动驾驶、无人商店和智慧理疗等多个重要领域的 AI 应用，显示出 AI 落地的广阔前景。

除了在主会展示，各大企业都在不同场所分别组织了 party，邀请 CVPR 的参会者参与。笔者参与了商汤、字节跳动（旗下有今日头条和抖音等产品）和 Momenta 的聚会。在活动中，企业详细介绍了自己的企业文化、主要产品和研究方向，以及未来的发展规划。以字节跳动为例，作为国内发展势头迅猛的 AI 企业，它已经开始了全球布局，例如在包括美国硅谷在内的全球各地设立 AI 实验室，从而招募更多的行业精英。以数据挖掘、内容推荐为驱动的今日头条吸引了大量用户。基于视频理解技术，它在短视频、视频直播等应用上也推出了极具创新的应用，助使其打造 AI+ 娱乐应用新模式。在宴会期间，笔者与同一桌的参会者进行了交流。他们都是来自中国的在读博士，除了一位来自英国帝国理工大学，一位来自同济大学，其余都来自美国的各个不同大学。

值得注意的是，企业同时也是 CVPR 会议中重要的论文发表者。据统计，论文发表数名列前茅的是，谷歌发表 45 篇，商汤科技发表 44 篇，Facebook 发表 35 篇，腾讯 AILab 发表 21 篇。可以看到，相关 AI 企业展示出越来越强大的科研实力和科研热情。产业界在实际应用中会第一时间发现问题、提出问题并迅速寻找解决方案。通过学术论文的发表，产业界与学术界共同分享新的思路和想法，这对学术的发展起到了很好的推动作用。如今，产业界和学术界的联系越来越紧密，在 AI 领域，真正做到了高效的产学研结合，这对整个 AI 生态的高效可持续发展是至关重要的。

研究热点概览

深度学习在计算机视觉领域继续发挥重要作用。众所周知，深度学习是数据驱动的，在这个数据为王的时代，收集和标注大量的数据来训练模型往往是实际场景中提升性能最简单有效的办法。然而，即便是有大量人力物力的企业，也很难对手头的海量数据完全标注，因此，半监督/弱监督学习是一个十分重要的课题。

以语义分割任务为例，研究者往往会采用图像类别标签进行弱监督学习。利用类别概率的响应热图（class activation map 或 peak response map）产生初始分割，不同的文章在后续进行各自的处理，从而实现弱监督的图像语义分割。

关于数据的另一个问题是，即使我们在一个庞大的数据集上训练得到了很好的模型（以验证集为评价依据），当我们将其投入实际应用时，可能会因为该场景下的数据分布与已有的数据分布有较大差异，性能明显下降。例如，这一问题在行人再识别中尤其明显，由于摄像头参数、光照等原因，实际场景可能会遇到分布很不相同的数据。迁移学习（Transfer Learning）是解决这一问题的常用思路，这也是本次会议论文的一个重要方向。

生成对抗网络（GAN）依然火热，在多种应用中都发挥了重要作用。比如，本届 CVPR 的 oral 文章《Finding Tiny Faces in the Wild with Generative Adversarial Network》，想要解决人脸检测中尺度多变的问题。为了更好地检测图像中较小的人脸，它利用生成器将低分辨率图像转换为高分辨率图像，并设计了两路的判别器，对高分辨率/低分辨率、人脸/背景进行判断。该方法能有效地对低分辨率的 proposal 进行超分辨率变换，并且能保持其原有的类别（人脸或背景），从而有效地帮助检测图像中分辨率很低的人脸。在其他方面，我们也看到了许多关于 GAN 的应用。

随着深度学习应用落地，在很多场景下可利用的存储和计算资源受限，比如在手机端、自动驾驶车辆上。因此，关于模型压缩、计算加速的文章也是非常重要的课题。比如 UC Berkeley 提出的《Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions》，提出了通过平移feature map和使用卷积的方式，来取代传统的卷积，从而极大地缩小模型尺寸、减小计算量，并且由于去除了隐层特征中的冗余信息，该方法还能带来识别率上的提升

笔者来到这篇文章的 poster 面前时，发现围观的人群已经挤满了位置。展板前面一位面似中国人的帅小伙在声情并茂地为大家讲解，而且他的口语十分地道。后来等到人群散去，我与他交流才发现原来他是美国人，不会说中文。他看到我的名牌后说，他的 mentor，即本文的第一作者，也来自清华。我与这位学长沟通后知道，原来他也是清华电子系毕业，在伯克利读博，已经五年级了。他向我介绍了他们实验室目前在于自动驾驶公司合作，做的项目专注于深度学习的模型压缩、加速，以及基于激光雷达的语义分割等。他们还举办了本届 CVPR 的一场 workshop：Efficient Deep Learning for Computer Vision。笔者参加了这场 workshop，有许多大牛来讲解了在硬件资源受限的情况下，高效地设计和使用神经网络的相关技术和研究。

获得了 ImageNet 2017 冠军的 Squeeze-and-Excitation Networks 也在现场进行了讲解，Oral 的时间虽然是早晨 8 点多，但依旧吸引了大批观众，Poster 前更是聚拢了一大群交流的学者。SE 架构大幅提升了模型的精度。通过引入全局图像的信息自动对卷积特征重新分配权重，增强对分类有用的特征，而抑制无效或收益甚微的特征。在只引入极少的计算量和参数量的情况下，可以将现有的绝大多数 CNN 的性能进行大幅提升。

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

入门CVPR 2018

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

验证集技术

验证数据集是用于调整分类器超参数（即模型结构）的一组数据集，它有时也被称为开发集(dev set)。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

机器人技术技术

机器人学（Robotics）研究的是「机器人的设计、制造、运作和应用，以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。机器人可以分成两大类：固定机器人和移动机器人。固定机器人通常被用于工业生产（比如用于装配线）。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器；另外还有能够实现感知能力的软件，比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成，这也是人工智能领域最早的终极目标之一。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本，它们看上去与真实样本的几乎相同（无法用肉眼分辨），但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

来源：Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks