关于作者:万纬韬,本科毕业于清华大学电子工程系,现于清华大学信息认知与智能系统研究所攻读博士二年级,主要研究方向包括基于深度学习的人脸检测与识别,对抗样本,图像语义分割。
计算机视觉顶级会议 CVPR 于 2018 年于 6 月 18 日在美国盐湖城召开。一年一度的 CVPR 收录了来自全球学者的最新研究,这里不仅是学术界交流的盛会,还是产业界展示成果的平台。随着算法与硬件的飞速发展,计算机视觉、人工智能等技术在我们的生产和生活中的应用越来越普及,与此同时,CVPR 会议本身也在不断地发展和变化。
CVPR 如同一个风向标,向我们展示了在最近一年里该领域的关注热点和最优秀的成果。笔者全程参与了本届 CVPR 会议,在这里与大家分享本届会议的特点、最新的研究热点和该领域相关企业的动向。
会议规模显著扩大
今年 CVPR 的论文投递数逾 3359 篇,相比去年增长约 25%。而论文接收率几乎不变(约 29%),最终被接收的论文多达 979 篇。从如此大量的论文中挑选出符合 CVPR 品质的论文绝非易事,会议组织了 2385 名来自世界各地的优秀审稿人进行评审。同时,参会人数多达 6500 余人,比去年增长约 30%。
因此,正如会议的 general chair,Michael Brown 教授所说,参会者不可能在 5 天的时间里顾全所有的事情,你必须做出取舍,这样才能充分的利用时间。的确如此,在主会议期间,每天都会并行地开展 3 场 oral/spotlight 报告,参会者需要提前了解并从中选择自己最感兴趣的话题来听。
▲ 图说:CVPR的参会人数和投稿数都出现了大幅增长
除了论文数量明显增长,今年赞助商的数量和赞助金额也明显增长。会议拥有来自全世界的 149 家赞助商,共接收赞助/展示费用达 200 万美元。可以看到,产业界对 CVPR 这一学术会议显示出了极大的兴趣,这也从侧面反映了计算机视觉、人工智能等方面的研究在实际场景中有巨大应用价值。赞助商除了在会场以丰富的形式展示各自的产品和研究成果以外,还提供了大量的招聘和实习岗位,希望吸引来自该领域的精英加入他们。一部分参会者就是冲着这些名企的招聘来,对他们来说这里也相当于是一场招聘会。
值得注意的是,无论是论文发表还是赞助商方面,华人都贡献了巨大的力量。在已接收的论文中,华人作者所占比重相当可观。在 9 家钻石赞助商中,中国企业就有 3 家;在 20 家铂金赞助商中,中国企业占到 9 家。一个最直观的感受是,在会议现场,中国人面孔非常普遍。在参加 poster 展览时,常常一篇 poster 面前全是中国学者,这个时候作者也许会索性用中文给大家讲解。参会的人面前都挂着自己的名牌,上面写有姓名和学校/单位,会议现场常常有人看了一眼笔者的名牌,然后就开始用中文打招呼。在这种氛围下,虽然身处美国,也有一种宾至如归的感觉。
企业参与度极高
相关领域的企业通过多种方式深度参与了本次会议。
首先,在主会期间,大量赞助商在会场展示区通过多种形式展示了各自的研究和应用。有以视频 Demo 形式展示的,比如字节跳动(ByteDance),他们以世界杯比赛视频为例展示了基于计算机视觉的足球比赛理解技术。该技术能够对球员和足球进行实时的追踪和分割,并且能自动生成鸟瞰图。目前正值俄罗斯世界杯期间,这样的展示很容易吸引参观者围观。公司旗下的短视频应用非常火爆,他们也展示了对于短视频中多人物的实时姿态检测,以及基于这些技术的有趣应用,比如抖音尬舞机,让人印象深刻。
▲ 字节跳动的系统可以基于计算机视觉,理解足球比赛技术
现场还有以视频或实体模型形式来展示的公司,比如 Momenta、图森科技、AURORA 等。京东展示了仓库巡逻机器人等无人仓库场景下的智能产品。还有以用户互动形式来展示的公司,比如商汤科技允许用户坐在模拟驾驶位,展示其对司机驾驶状态、目光注意力以及司机手势的识别能力;Adobe 则允许用户在触摸板上画出一个人像,然后算法会对其自动上色。会场中,各个企业展示了涵盖智能监控、自动驾驶、无人商店和智慧理疗等多个重要领域的 AI 应用,显示出 AI 落地的广阔前景。
除了在主会展示,各大企业都在不同场所分别组织了 party,邀请 CVPR 的参会者参与。笔者参与了商汤、字节跳动(旗下有今日头条和抖音等产品)和 Momenta 的聚会。在活动中,企业详细介绍了自己的企业文化、主要产品和研究方向,以及未来的发展规划。以字节跳动为例,作为国内发展势头迅猛的 AI 企业,它已经开始了全球布局,例如在包括美国硅谷在内的全球各地设立 AI 实验室,从而招募更多的行业精英。以数据挖掘、内容推荐为驱动的今日头条吸引了大量用户。基于视频理解技术,它在短视频、视频直播等应用上也推出了极具创新的应用,助使其打造 AI+ 娱乐应用新模式。在宴会期间,笔者与同一桌的参会者进行了交流。他们都是来自中国的在读博士,除了一位来自英国帝国理工大学,一位来自同济大学,其余都来自美国的各个不同大学。
值得注意的是,企业同时也是 CVPR 会议中重要的论文发表者。据统计,论文发表数名列前茅的是,谷歌发表 45 篇,商汤科技发表 44 篇,Facebook 发表 35 篇,腾讯 AILab 发表 21 篇。可以看到,相关 AI 企业展示出越来越强大的科研实力和科研热情。产业界在实际应用中会第一时间发现问题、提出问题并迅速寻找解决方案。通过学术论文的发表,产业界与学术界共同分享新的思路和想法,这对学术的发展起到了很好的推动作用。如今,产业界和学术界的联系越来越紧密,在 AI 领域,真正做到了高效的产学研结合,这对整个 AI 生态的高效可持续发展是至关重要的。
研究热点概览
深度学习在计算机视觉领域继续发挥重要作用。众所周知,深度学习是数据驱动的,在这个数据为王的时代,收集和标注大量的数据来训练模型往往是实际场景中提升性能最简单有效的办法。然而,即便是有大量人力物力的企业,也很难对手头的海量数据完全标注,因此,半监督/弱监督学习是一个十分重要的课题。
以语义分割任务为例,研究者往往会采用图像类别标签进行弱监督学习。利用类别概率的响应热图(class activation map 或 peak response map)产生初始分割,不同的文章在后续进行各自的处理,从而实现弱监督的图像语义分割。
关于数据的另一个问题是,即使我们在一个庞大的数据集上训练得到了很好的模型(以验证集为评价依据),当我们将其投入实际应用时,可能会因为该场景下的数据分布与已有的数据分布有较大差异,性能明显下降。例如,这一问题在行人再识别中尤其明显,由于摄像头参数、光照等原因,实际场景可能会遇到分布很不相同的数据。迁移学习(Transfer Learning)是解决这一问题的常用思路,这也是本次会议论文的一个重要方向。
生成对抗网络(GAN)依然火热,在多种应用中都发挥了重要作用。比如,本届 CVPR 的 oral 文章《Finding Tiny Faces in the Wild with Generative Adversarial Network》,想要解决人脸检测中尺度多变的问题。为了更好地检测图像中较小的人脸,它利用生成器将低分辨率图像转换为高分辨率图像,并设计了两路的判别器,对高分辨率/低分辨率、人脸/背景进行判断。该方法能有效地对低分辨率的 proposal 进行超分辨率变换,并且能保持其原有的类别(人脸或背景),从而有效地帮助检测图像中分辨率很低的人脸。在其他方面,我们也看到了许多关于 GAN 的应用。
随着深度学习应用落地,在很多场景下可利用的存储和计算资源受限,比如在手机端、自动驾驶车辆上。因此,关于模型压缩、计算加速的文章也是非常重要的课题。比如 UC Berkeley 提出的《Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions》,提出了通过平移feature map和使用卷积的方式,来取代传统的卷积,从而极大地缩小模型尺寸、减小计算量,并且由于去除了隐层特征中的冗余信息,该方法还能带来识别率上的提升
笔者来到这篇文章的 poster 面前时,发现围观的人群已经挤满了位置。展板前面一位面似中国人的帅小伙在声情并茂地为大家讲解,而且他的口语十分地道。后来等到人群散去,我与他交流才发现原来他是美国人,不会说中文。他看到我的名牌后说,他的 mentor,即本文的第一作者,也来自清华。我与这位学长沟通后知道,原来他也是清华电子系毕业,在伯克利读博,已经五年级了。他向我介绍了他们实验室目前在于自动驾驶公司合作,做的项目专注于深度学习的模型压缩、加速,以及基于激光雷达的语义分割等。他们还举办了本届 CVPR 的一场 workshop:Efficient Deep Learning for Computer Vision。笔者参加了这场 workshop,有许多大牛来讲解了在硬件资源受限的情况下,高效地设计和使用神经网络的相关技术和研究。
获得了 ImageNet 2017 冠军的 Squeeze-and-Excitation Networks 也在现场进行了讲解,Oral 的时间虽然是早晨 8 点多,但依旧吸引了大批观众,Poster 前更是聚拢了一大群交流的学者。SE 架构大幅提升了模型的精度。通过引入全局图像的信息自动对卷积特征重新分配权重,增强对分类有用的特征,而抑制无效或收益甚微的特征。在只引入极少的计算量和参数量的情况下,可以将现有的绝大多数 CNN 的性能进行大幅提升。