2018/06/20 00:30

CVPR 2018奖项出炉：两篇最佳论文，何恺明获PAMI 青年研究员奖

昨日，一年一度的计算机视觉顶级会议 CVPR 2018 在美国盐湖城拉开帷幕，排起长龙的注册队伍让现场参会的机器之心分析师看到了这届 CVPR 的火热。据统计，本届大会有超过 3300 篇的大会论文投稿，录取 979 篇（接受率约为 29%，其中包括 70 篇 Oral 和 224 篇 Spotlight 论文）。

而在一个小时前，最受关注的 CVPR 2018 最佳论文结果揭晓：来自斯坦福大学和 UC Berkeley 的 Amir R. Zamir 等人获得 CVPR2018 的最佳论文（Best Paper Award）；来自卡内基梅隆大学的 Hanbyul Joo 等人获得了本届大会最佳学生论文奖（Best Student Paper Award）。此外，Tübingen 大学教授 Andreas Geiger 与 FAIR 研究科学家何恺明获得本届大会的 PAMI 年轻学者奖。

在 19 号上午的主会议上，CVPR 方面先介绍了今年大会的数据信息，除了论文接收量再次超越往年，今年的注册参会人员也达到了 6512 位。

此外，论文评审人员的数量在今年也达到了新高，2385 名 reviewer，而 2014 年 CVPR 的参会人员也才 2000 人左右。

介绍完大会数据方面的信息，接下来就是揭晓最佳论文得主了：

最佳论文

CVPR2018 的最佳论文（Best Paper Award）由斯坦福大学和 UC Berkeley 的 Amir R. Zamir 等人获得。他们提出了一个映射视觉任务空间的框架，通过计算不同任务的相关性来确定迁移学习方案，从而可以在保持准确率的同时，大大降低对数据、监督信息和计算资源的需求。

最佳论文：Taskonomy: Disentangling Task Transfer Learning

论文链接：http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf

视觉任务之间是否相关？例如，能否使用曲面法线简化估计图像深度的过程？直觉上对这些问题的正面回答暗示着在各种视觉任务之间存在一种结构。了解这种结构具有巨大的价值；它是迁移学习背后的概念，且可为识别任务间的冗余提供了一种有理可依的方法，比如，为了在相关任务间无缝地重复使用监督或在一个系统中解决多个任务而不增加复杂度。

我们提出了一种完全计算的方法来建模视觉任务的空间结构，通过在一个位于隐空间内的 26 个二维、2.5 维、三维和语义任务中寻找（一阶或更高阶）迁移学习依赖关系来实现。其成品是用于任务迁移学习的计算分类图。我们研究了这个结构的成果，比如出现的非平凡相关关系，并利用它们减少对标注数据的需求。比如，我们展示了解决一组 10 个任务所需的标注数据点总数可以减少约 2/3（与独立训练相比），同时保持性能几乎一致。我们提供了一套计算和探测这种分类结构的工具，包括一个求解器，用户可以用它来为其用例设计有效的监督策略。

该项目也已开源并放出官方的 API 和 Demo：http://taskonomy.stanford.edu/

会后，该论文的第一作者、斯坦福大学和加州大学伯克利分校的博士后研究员 Amir Roshan Zamir 告诉机器之心记者，「这篇论文主要围绕了当前机器学习系统最大的缺点，也就是需要很多标注数据才能完成它们想要的结果。人类是可以借鉴学到的不同技能，也就是迁移学习，你在第一盘棋中学到的技能可以用到第 10、第 100 盘棋，这篇论文的重点就是将这个概念带去机器学习、尤其是在感知（perception）这块儿。基本上你用你之前学的技能解决新的问题。」

该论文的第三作者，斯坦福大学计算机科学系的现本科生/准博士生沈博魁告诉记者，他们的目标是找到不同任务之间的关联，这些任务比如说是深度感知（depth-perception）、surface normal estimation 之类的，发现这些关联之后就能用更少的数据来解决更多的任务。比如用边缘检测和 surface normal estimation 就能更好地学深度感知。

最佳学生论文

本届大会的最佳学生论文（Best Student Paper Award）由来自卡耐基梅隆大学（CMU）的 Hanbyul Joo、Tomas Simon、Yaser Sheikh 获得。该研究提出了一种 3D 人体模型，不仅可以追踪身体的姿势，还可以追踪人脸表情和手势等微小动作。

最佳学生论文：Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies

论文链接：http://www.cs.cmu.edu/~hanbyulj/totalbody/totalcapture.pdf

摘要：我们展示了一种用于无标记捕捉多尺度人类动作（包括人脸表情、身体动作和手势）的统一变形模型（deformation model）。初始模型通过将人体各部位的模型进行局部组合来形成，我们称之为「弗兰肯斯坦」模型。该模型能够通过单个无缝模型完整表达人体部位的动作，包括人脸和手的动作。通过对穿着日常服饰的人们进行大规模数据收集，我们优化弗兰肯斯坦模型以创建「亚当」（Adam）。亚当是校准模型，它与初始模型具备同样的基础层级，但是它可以表现头发和衣服的几何形状，使之可直接用于查看衣服和人是否相配，就像真的在日常生活中穿了这些衣服一样。最后，我们展示了这些模型可用于整体动作追踪，同时捕捉一组人的大规模身体动作和细微的面部和手部动作。

作为计算机视觉的研究，最佳学生论文也有自己的展示页：http://www.cs.cmu.edu/~hanbyulj/totalcapture/

荣誉提名奖（Honorable Mention）

论文：Deep Learning of Graph Matching
作者：Andrei Zanfir、Cristian Sminchisescu
论文链接：http://openaccess.thecvf.com//content_cvpr_2018/papers/Zanfir_Deep_Learning_of_CVPR_2018_paper.pdf

论文：SPLATNet: Sparse Lattice Networks for Point Cloud Processing
作者：Hang Su、Varun Jampani、Deqing Sun、Subhransu Maji、Evangelos Kalogerakis、Ming-Hsuan Yang、Jan Kautz
论文链接：https://arxiv.org/abs/1802.08275

论文：CodeSLAM - Learning a Compact, Optimisable Representation for Dense Visual SLAM
作者：Michael Bloesch、Jan Czarnowski、Ronald Clark、Stefan Leutenegger、Andrew J. Davison
论文链接：https://arxiv.org/abs/1804.00874

论文：Efficient Optimization for Rank-based Loss Functions
作者：Pritish Mohapatra、Michal Rol´ınek、C.V. Jawahar、Vladimir Kolmogorov、M. Pawan Kumar
论文链接：https://arxiv.org/abs/1604.08269

除了以上获奖论文，大会还公布了今年的 PAMI Longuet-Higgins Prize 与 PAMI Young Researcher Award。前者是颁发给至少 10 年前发布的论文，而后者是颁发给 7 年内获得博士学位且早期研究极为有潜力的研究人员。今年 Longuet-Higgins Prize 的得主为 CVPR 2008 年的论文《A discriminatively trained, multiscale, deformable part model》；PAMI Young Researcher Award 的得主为 Andreas Geiger 与何恺明。

Andreas Geiger 是德国蒂宾根大学计算机科学系的教授，自动驾驶视觉组成员。今年他们有四篇论文被 CVPR 2018 接收。而另一位获奖者何恺明大家都比较熟悉，他于 2016 年 8 月加入 FAIR（Facebook AI Research），担任研究科学家。此前，他曾以第一作者身份拿过两次 CVPR 最佳论文奖（2009 和 2016）。

最后值得一提的是，恰逢世界杯期间，CVPR 2018 提供世界杯直播。所以，参会者们是看着论文，累了就停下来看会儿世界杯吗？

产业CVPR 2018计算机视觉获奖论文

相关数据

Andreas Geiger人物

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题，边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括（i）深度上的不连续、（ii）表面方向不连续、（iii）物质属性变化和（iv）场景照明变化。边缘检测是图像处理和计算机视觉中，尤其是特征检测中的一个研究领域。

来源：维基百科