今年的 ICCV 于 10 月 27 日-11 月 2 日在韩国首尔召开,大会主席由首尔大学电子与计算机工程系教授 Kyoung Mu Lee、伊利诺伊大学香槟分校计算机科学教授 David Forsyth、苏黎世联邦理工学院计算机科学系视觉计算学院教授 Marc Pollefeys、商汤科技创始人及香港中文大学教授汤晓鸥联合担任。
在主会议开幕式上,大会官方介绍了今年大会的论文接收、参会人员等信息,同时也公布了今年大会的获奖论文。
据介绍,今年的参会人数高达 7501 人,是上一届的 2.4 倍。其中,来自中国的参会人数高达 1264 人,仅次于举办地韩国(2964)。
而在论文方面,ICCV 2019 共收到 4303 篇论文,是上一届大会 ICCV 2017 论文投稿数量(2143)的 2 倍以上。最终大会接收了 1075 篇论文,接收率为 25.02%,其中 200 篇为 oral 论文(4.6% 接收率)。
值得一提的是,今年 ICCV 接收论文中,中国论文量最多,高达 350 多篇,第二名为美国,其次为德国、韩国。
介绍完大会基本信息,接下来就是今年大会的获奖论文了,今年 ICCV 的最佳论文等奖项一一揭晓。
最佳论文-马尔奖
马尔奖因计算神经学创始人 David C. Marr 而得名,是计算机视觉研究领域的最高荣誉之一。这一次,获得 ICCV2019 马尔奖的论文为《SinGAN:Learning a Generative Model From a Single Natural Image》,论文作者分别为来自以色列理工学院的 Tamar Rott Shaham 和 Tomer Michaeli,以及谷歌的 Tali Dekei。
论文标题:SinGAN:Learning a Generative Model From a Single Natural Image
作者:Tamar Rott Shaham、Tali Dekei、Tomer Michaeli
论文链接:http://openaccess.thecvf.com/content_ICCV_2019/papers/Shaham_SinGAN_Learning_a_Generative_Model_From_a_Single_Natural_Image_ICCV_2019_paper.pdf
实现地址:https://github.com/tamarott/SinGAN
在这篇论文中,研究者介绍了一种无监督的生成模型 SinGAN,它以一种无条件约束的方式从单张自然图像中学习知识。经过训练,研究者的模型能捕捉图像块(patch)的内部分布,从而生成高质量、多样化的样本,并承载与训练图像相同的视觉内容。
SinGAN 包含一个全卷积金字塔 GAN,金字塔的每一层负责学习不同比例的图像块分布。这样就能生成具有任意大小和横纵比的新样本,这种生成样本明显具有可变性,但同时又能保持真实图像的全局结构与精细纹理。与之前的单图像 GAN 相比,研究者的方法不仅能生成纹理图像,同时它还以一种无条件约束的方式生成。
图 1:SinGAN 通过使用多尺度对抗训练方案,从多种尺度学习了图像块信息。这样一来,模型就可以生成新的真实图像样本,其中在创建新的目标属性和结构的同时还保留了原始的图像块分布信息。如上展示了不同尺度图像的生成效果。
图 4:SinGAN 的多尺度生成流程,模型由 GAN 的一种金字塔方案组成,每一层都是一个生成对抗网络,它们从下到上学习着不同尺度的图像生成效果。SinGAN 的训练和推断过程都是从粗粒度到细粒度的方向进行。
研究者在最后还表明,SinGAN 生成的图像经常被人类弄混,它们与真实图像没什么差别。
最佳学生论文奖
ICCV 2019 最佳学生论文奖由《PLMP-Point-Line Minimal Problems in Complete Multi-View Visibility》摘得,论文作者分别来自佐治亚理工学院(Georgia Tech)、瑞典皇家理工学院(KTH)以及捷克理工大学(Czech Technical University in Prague)。
论文标题:PLMP-Point-Line Minimal Problems in Complete Multi-View Visibility
作者:Timothy Duff、Kathlen Kohn、Anton Leykin、Tomas Pajdla
论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Duff_PLMP_-_Point-Line_Minimal_Problems_in_Complete_Multi-View_Visibility_ICCV_2019_paper.pdf
实现地址:https://github.com/timduff35/PLMP
在这篇论文中,研究者通过透视相机观察到的点线一般排列,提出了所有极小值问题的完整分类,其中透视相机是经过校准的。研究者证明,对于超过 6 个相机、5 个点和 6 条线的情况,其总共只有 30 个极小值问题,不存在其它情况。
研究者展示了一系列检测极小值的测试,它们从对自由度进行计数开始,并结束于对代表性样本的完全符号化与数值化的验证。对于所发现的所有极小值问题,研究者展示了它们的代数「程度」,即解的数量,这一指标度量了极小值问题的固有难度。此外,这种代数程度还展示了问题的难度如何随视图的增加而增长。
重要的是,一些新的极小值问题有非常小的代数程度,因此它们在图像匹配和三维重建上能得到很好的应用。
图 1:第一行红色的点和蓝色的线会独立地被检测到,且点与线的排列也是独立检测的。第二行展示了一些点线排列示例,它们提供了新的极小值问题。
最佳论文荣誉提名奖
最佳论文荣誉提名奖中共有两篇论文获奖,其中一篇的作者是威斯康辛大学-麦迪逊分校的 Anant Gupta、Atul Ingle、Mohit Gupta。而另一篇论文是来自以色列特拉维夫大学的 Oron Ashual 和 Lior Wolf 两位研究者完成的。
论文标题:Asynchronous Single-Photon 3D Image
作者:Anant Gupta、Atul Ingle、Mohit Gupta
论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Gupta_Asynchronous_Single-Photon_3D_Imaging_ICCV_2019_paper.pdf
光电探测雪崩二极管(Single-photon avalanche diode:SPAD)在飞行时间(time-of-flight:ToF)的深度距离相关的研究中变得受欢迎了,因为这种类型的摄像头可以在皮秒内捕捉并处理单个图像。然而,环境光(如阳光)可能使得基于 SPAD 的三维摄像头发生问题,在实测波形上造成严重的非线性扭曲(积压),使得深度信息严重错误。
本文中,研究者提出了一种异步单光子三维成像技术,使用一种数据获取技术减缓积压问题。在获得数据的过程中,异步获取技术暂时偏离 SPAD 评价窗口,并通过预定义的激光周期或随机偏移量进行补偿。
研究者对于积压产生的扭曲问题这样考虑:通过选择一系列补偿信息,可以涵盖整个深度距离。研究者开发了一个泛化的图像构建模型,并进行了理论分析,用于探索异步获取方案的空间,并设计高性能的方案。
图 1:单光子摄像头和 3D 成像示意。(a)一个单光子摄像头像素对于单个光子敏感,可以在捕捉光子达到的时间并在皮秒内进行处理。(b)高敏感性和分辨率使得单光子摄像头在很多应用上有实际价值。(c)一个基于飞行时间的单光子三维摄像头由两部分组成:一个脉冲式激光和一个单光子检测器,可以给返回的光子计时。(d)单光子摄像头能够提供非常高的深度分辨率,即使距离很长。
研究者称,其模拟和实验中结果显示,他们的方法在一系列成像场景中和 SOTA 相比显著提升了深度的准确性,包括有着高强度环境光的场景下。
论文标题:Specifying Object Attributes and Relations in Interactive Scene Generation
作者:Oron Ashual、Lior Wolf
论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Ashual_Specifying_Object_Attributes_and_Relations_in_Interactive_Scene_Generation_ICCV_2019_paper.pdf
开源地址:https://github.com/ashual/scene_generation
在本文中,研究者提出了一种从输入的场景图中生成图像的方法。这一方法可分为两个方面,分别为布局嵌入和外观嵌入。这种双嵌入的方法使得生成的图像更好地和场景图匹配、有着更好的图像质量、并支持更复杂的场景图。此外,嵌入方法支持从每个场景图中生成多个且不同的图像,也可以进一步由用户控制。研究者在论文中展示了两种针对每个目标进行的控制:(i)从其他图像中引入新的元素;(ii)通过选择典型的外观,然后探索目标空间。研究者的代码目前已开源。
图 1:一个生成图像过程的例子。顶行为用户界面的布局展示板,用户可以在此安排需要的目标(如安排天空、动物等生成图像的元素)。第二行是从这一布局中自动获得的场景图。第三行是根据场景图创建的布局图。底层一行是生成的图像。
图 2:研究者提出的网络架构。包括子图网络 G、M、B、A、R,以及创建布局张量 t 的流程。
PAMI TC 奖
PAMI 是 IEEE 旗下的期刊,是模式识别和机器学习领域最重要的学术性汇刊之一,有着很高的影响因子和排名。今年 ICCV 上的 PAMI 奖包含四大奖项,分别是 Helmholtz 奖、Everingham 奖、Azriel Rosenfeld 终身成就奖和杰出研究者奖。
Helmholtz 奖
Helmholtz 奖旨在奖励对计算机视觉领域做出重要贡献的工作,颁发对象是十年前对计算机视觉领域产生重大影响的论文。奖项名称来自 19 世纪的物理、生理学家 Hermann von Helmholtz。
今年的 Helmholtz 奖颁给了两篇论文——《Building Rome in a Day》和《Attribute and Simile Classifiers for Face Verification》。
《Building Rome in a Day》是华盛顿大学、康奈尔大学和微软的联合研究项目,旨在通过从 Flickr.com 上下载的所有与罗马相关的图像来重建罗马这座城市。他们要设计一个并行分布式系统,匹配这些图像以找到共同点,并使用这些信息来计算城市的三维结构和摄像头的位置。实验结果表明,在一个拥有 500 个计算核心的集群中,他们可以在不到一天的时间内重建包含 15 万张图像的城市。
《Attribute and Simile Classifiers for Face Verification》是哥伦比亚大学的一项研究。在这篇论文中,研究者提出了两种人脸验证的方法——「attribute」分类器和「simile」分类器。二者都不需要昂贵的图像对对齐。与当时的最佳分类器相比,错误率分别降低了 23.92% 和 26.34%,合并后的错误率降低了 31.68%。
Everingham 奖
Everingham 奖的设立初衷是纪念计算机视觉领域专家 Mark Everingham 并激励后来者在计算机视觉领域做出更多贡献。颁奖对象包括为计算机视觉社区其他成员做出巨大贡献的无私研究者或研究团队。
本次获得 Everingham 奖项的分别是亚马逊杰出科学家及研究主管 Gerard Medioni 和「Labeled Faces in the Wild」(LFW)人脸数据集的团队,包括 Erik Learened-Miller、Gary B.Huang、Tamara Berg 等人。
Gerard Medioni 因其几十年来为 CVPR&ICCV 大会所做出的卓越贡献而获此荣誉,他还发起了用于组织大会和研讨会的统一注册系统,此外他也是计算机视觉基金会的联合创始人,其研究范围涵盖了计算机领域的广泛议题,例如边缘检测、立体和运动分析、形状推断和描述以及系统集成等。
LFW 团队因 2007 年以来对 LFW 数据集和基准的生成及维护等贡献而获此荣誉,他们的工作有力地推动了在不受控制的现实世界中进行人脸识别的研究进展。
Azriel Rosenfeld 终身成就奖
该奖项是为了纪念已故的计算机科学家和数学家 Azriel Rosenfeld 教授,奖励在长期职业生涯中为计算机视觉领域作出突出贡献的杰出研究者。
今年的 Azriel Rosenfeld 终身成就奖颁给了视觉领域的专家教授 Shimon Ullman。
Shimon Ullman 现任以色列魏茨曼科学院(The Weizmann Institute of Science)计算机科学与应用数学系主任和计算机科学 Samy 和 Ruth Cohn 教授。他的主要研究领域包括人类视觉系统对视觉信息的处理以及计算机视觉等。这项研究的目的在于了解人类自身视觉系统的运作方式以及如何构建具有视觉功能的人工系统,例如如何为残障人士提供帮助等。2015 年,他荣获了以色列计算机科学奖;2016 年成为美国人文与科学院(American Academy of Arts and Sciences)成员。
杰出研究者奖
基于主要研究贡献及对其他研究的激发影响等考量原则,杰出研究者奖旨在奖励对计算机视觉发展作出重大贡献的研究者。今年的杰出研究者奖由 William T. Freeman 和 Shree Nayar 两位教授摘得。
Freeman 是麻省理工学院电气工程与计算机科学系(EECS)的 Thomas 和 Gerd Perkins 教授,他的研究重点包括运动再现、计算机摄影和视觉学习等方面,并拥有 30 多项专利;他先后在 1997 年、2006 年、2009 年和 2012 年的计算机视觉或机器学习会议上获得优秀论文奖,并于 1990 年、1995 年和 2005 年获得论文的「时间检验奖」(Test-of-time Award);他还积极参加计算机视觉、图形和机器学习相关会议,曾担任 ICCV 2005 和 CVPR 2013 的程序委员会共同主席。
Shree Nayar 是哥伦比亚大学计算机科学系教授,其研究领域集中在计算成像、计算机视觉、机器人、图像处理和人机交互等。此外,他还是哥伦比亚大学计算机视觉实验室(Columbia Vision Laboratory,CAVE)的负责人,该实验室主要开发先进的计算机视觉系统。他曾获得 ICCV 1990、 ICPR 1994、CVPR 1994、ICCV 1995、CVPR 2000 和 CVPR 2004 的最佳论文奖。2008 年入选美国国家工程院。
ICCV 2019 的中国力量
在今年的 ICCV 上,中国高校和企业的力量不可忽视。
在投稿阶段,ICCV 2019 官方推特列出了部分投稿单位排名。其中,中科院、清华、华为、百度等高校个企业名列前茅。中科院和清华更是以 237 和 175 篇的论文投稿数量遥遥领先。
在接收结果出来之后,商汤、华为等企业也在第一时间公布了自己的论文被接收情况。其中最亮眼的要数商汤科技,有 57 篇论文入选,其中口头报告论文有 11 篇,主题包括面向目标检测的深度网络基础算子、基于插值卷积的点云处理主干网络等。同时,在 ICCV 2019 的诸多竞赛上,商汤及其联合实验室斩获 13 项世界冠军,包括 OpenImage 物体检测、实例分割赛道冠军等。
华为诺亚方舟实验室在本届的 ICCV 大会中也有不俗的表现,在本届大会上发表(或联合发表)了 19 篇论文,其中两篇工作为口头报告。华为的接收论文涉及计算机视觉的各个领域,覆盖了从底层视觉、中层表示学习到高层语义识别的视觉任务。此外,华为还是今年 ICCV 会议的铂金赞助商。
腾讯优图有 13 篇论文入选本次会议,其中 3 篇被选做口头报告,涉及 2D 图像多视图生成、人脸照片图像转换等多个主题。
作为计算机视觉领域创业公司独角兽,旷视科技今年有 11 篇论文入选,涉及目标检测、行人搜索、模型压缩、文本识别等多个主题。在比赛方面,旷世拿下了今年拿下 5 项任务冠军,包括 COCO 物体检测(Detection)、人体关键点(Keypoint)和全景分割(Panoptic)三项第一,Wider Challenge 2019 行人检测冠军和 VOS 2019 视频对象分割冠军。此外,旷世还获得了 COCO 今年新设立的 Best Paper Award。
以上,是机器之心了解到的公司的论文接收情况。除此之外,百度、阿里巴巴等国内企业也有多篇论文入选,更多内容可以关注机器之心 ICCV 网站专题。