Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

7500人参会,国内接收论文数量超越美国,ICCV 2019最佳论文揭晓

两年一度的计算机视觉国际顶会 ICCV 2019 已于 10 月 27 日在韩国首尔开幕。在过去两天的 workshop 与 tutorial 上,我们看到了各个公司与团队在挑战赛上的角逐。今日,大会主会议正式开始,此届大会的最佳论文、最佳学生论文等奖项也于刚刚揭晓。

ICCV 的全称是 IEEE International Conference on Computer Vision,即国际计算机视觉大会,由 IEEE 主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。在 CCF 版 AI 顶会和期刊列表以及今年 9 月份清华提出的「计算机科学推荐学术会议和期刊列表」中,ICCV 均属于 A 类顶级会议,在业内影响极大。

今年的 ICCV 于 10 月 27 日-11 月 2 日在韩国首尔召开,大会主席由首尔大学电子与计算机工程系教授 Kyoung Mu Lee、伊利诺伊大学香槟分校计算机科学教授 David Forsyth、苏黎世联邦理工学院计算机科学系视觉计算学院教授 Marc Pollefeys、商汤科技创始人及香港中文大学教授汤晓鸥联合担任。

在主会议开幕式上,大会官方介绍了今年大会的论文接收、参会人员等信息,同时也公布了今年大会的获奖论文。

据介绍,今年的参会人数高达 7501 人,是上一届的 2.4 倍。其中,来自中国的参会人数高达 1264 人,仅次于举办地韩国(2964)。

而在论文方面,ICCV 2019 共收到 4303 篇论文,是上一届大会 ICCV 2017 论文投稿数量(2143)的 2 倍以上。最终大会接收了 1075 篇论文,接收率为 25.02%,其中 200 篇为 oral 论文(4.6% 接收率)。

值得一提的是,今年 ICCV 接收论文中,中国论文量最多,高达 350 多篇,第二名为美国,其次为德国、韩国。

介绍完大会基本信息,接下来就是今年大会的获奖论文了,今年 ICCV 的最佳论文等奖项一一揭晓。

最佳论文-马尔奖

马尔奖因计算神经学创始人 David C. Marr 而得名,是计算机视觉研究领域的最高荣誉之一。这一次,获得 ICCV2019 马尔奖的论文为《SinGAN:Learning a Generative Model From a Single Natural Image》,论文作者分别为来自以色列理工学院的 Tamar Rott Shaham 和 Tomer Michaeli,以及谷歌的 Tali Dekei。

论文标题:SinGAN:Learning a Generative Model From a Single Natural Image

  • 作者:Tamar Rott Shaham、Tali Dekei、Tomer Michaeli

  • 论文链接:http://openaccess.thecvf.com/content_ICCV_2019/papers/Shaham_SinGAN_Learning_a_Generative_Model_From_a_Single_Natural_Image_ICCV_2019_paper.pdf

  • 实现地址:https://github.com/tamarott/SinGAN

在这篇论文中,研究者介绍了一种无监督的生成模型 SinGAN,它以一种无条件约束的方式从单张自然图像中学习知识。经过训练,研究者的模型能捕捉图像块(patch)的内部分布,从而生成高质量、多样化的样本,并承载与训练图像相同的视觉内容。

SinGAN 包含一个全卷积金字塔 GAN,金字塔的每一层负责学习不同比例的图像块分布。这样就能生成具有任意大小和横纵比的新样本,这种生成样本明显具有可变性,但同时又能保持真实图像的全局结构与精细纹理。与之前的单图像 GAN 相比,研究者的方法不仅能生成纹理图像,同时它还以一种无条件约束的方式生成。

图 1:SinGAN 通过使用多尺度对抗训练方案,从多种尺度学习了图像块信息。这样一来,模型就可以生成新的真实图像样本,其中在创建新的目标属性和结构的同时还保留了原始的图像块分布信息。如上展示了不同尺度图像的生成效果。

图 4:SinGAN 的多尺度生成流程,模型由 GAN 的一种金字塔方案组成,每一层都是一个生成对抗网络,它们从下到上学习着不同尺度的图像生成效果。SinGAN 的训练和推断过程都是从粗粒度到细粒度的方向进行。

研究者在最后还表明,SinGAN 生成的图像经常被人类弄混,它们与真实图像没什么差别。

最佳学生论文奖

ICCV 2019 最佳学生论文奖由《PLMP-Point-Line Minimal Problems in Complete Multi-View Visibility》摘得,论文作者分别来自佐治亚理工学院(Georgia Tech)、瑞典皇家理工学院(KTH)以及捷克理工大学(Czech Technical University in Prague)。

论文标题:PLMP-Point-Line Minimal Problems in Complete Multi-View Visibility

  • 作者:Timothy Duff、Kathlen Kohn、Anton Leykin、Tomas Pajdla

  • 论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Duff_PLMP_-_Point-Line_Minimal_Problems_in_Complete_Multi-View_Visibility_ICCV_2019_paper.pdf

  • 实现地址:https://github.com/timduff35/PLMP

在这篇论文中,研究者通过透视相机观察到的点线一般排列,提出了所有极小值问题的完整分类,其中透视相机是经过校准的。研究者证明,对于超过 6 个相机、5 个点和 6 条线的情况,其总共只有 30 个极小值问题,不存在其它情况。

研究者展示了一系列检测极小值的测试,它们从对自由度进行计数开始,并结束于对代表性样本的完全符号化与数值化的验证。对于所发现的所有极小值问题,研究者展示了它们的代数「程度」,即解的数量,这一指标度量了极小值问题的固有难度。此外,这种代数程度还展示了问题的难度如何随视图的增加而增长。

重要的是,一些新的极小值问题有非常小的代数程度,因此它们在图像匹配和三维重建上能得到很好的应用。

图 1:第一行红色的点和蓝色的线会独立地被检测到,且点与线的排列也是独立检测的。第二行展示了一些点线排列示例,它们提供了新的极小值问题。

最佳论文荣誉提名奖

最佳论文荣誉提名奖中共有两篇论文获奖,其中一篇的作者是威斯康辛大学-麦迪逊分校的 Anant Gupta、Atul Ingle、Mohit Gupta。而另一篇论文是来自以色列特拉维夫大学的 Oron Ashual 和 Lior Wolf 两位研究者完成的。

论文标题:Asynchronous Single-Photon 3D Image

  • 作者:Anant Gupta、Atul Ingle、Mohit Gupta

  • 论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Gupta_Asynchronous_Single-Photon_3D_Imaging_ICCV_2019_paper.pdf

光电探测雪崩二极管(Single-photon avalanche diode:SPAD)在飞行时间(time-of-flight:ToF)的深度距离相关的研究中变得受欢迎了,因为这种类型的摄像头可以在皮秒内捕捉并处理单个图像。然而,环境光(如阳光)可能使得基于 SPAD 的三维摄像头发生问题,在实测波形上造成严重的非线性扭曲(积压),使得深度信息严重错误。

本文中,研究者提出了一种异步单光子三维成像技术,使用一种数据获取技术减缓积压问题。在获得数据的过程中,异步获取技术暂时偏离 SPAD 评价窗口,并通过预定义的激光周期或随机偏移量进行补偿。

研究者对于积压产生的扭曲问题这样考虑:通过选择一系列补偿信息,可以涵盖整个深度距离。研究者开发了一个泛化的图像构建模型,并进行了理论分析,用于探索异步获取方案的空间,并设计高性能的方案。

图 1:单光子摄像头和 3D 成像示意。(a)一个单光子摄像头像素对于单个光子敏感,可以在捕捉光子达到的时间并在皮秒内进行处理。(b)高敏感性和分辨率使得单光子摄像头在很多应用上有实际价值。(c)一个基于飞行时间的单光子三维摄像头由两部分组成:一个脉冲式激光和一个单光子检测器,可以给返回的光子计时。(d)单光子摄像头能够提供非常高的深度分辨率,即使距离很长。

研究者称,其模拟和实验中结果显示,他们的方法在一系列成像场景中和 SOTA 相比显著提升了深度的准确性,包括有着高强度环境光的场景下。

论文标题:Specifying Object Attributes and Relations in Interactive Scene Generation

  • 作者:Oron Ashual、Lior Wolf

  • 论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Ashual_Specifying_Object_Attributes_and_Relations_in_Interactive_Scene_Generation_ICCV_2019_paper.pdf

  • 开源地址:https://github.com/ashual/scene_generation

在本文中,研究者提出了一种从输入的场景图中生成图像的方法。这一方法可分为两个方面,分别为布局嵌入和外观嵌入。这种双嵌入的方法使得生成的图像更好地和场景图匹配、有着更好的图像质量、并支持更复杂的场景图。此外,嵌入方法支持从每个场景图中生成多个且不同的图像,也可以进一步由用户控制。研究者在论文中展示了两种针对每个目标进行的控制:(i)从其他图像中引入新的元素;(ii)通过选择典型的外观,然后探索目标空间。研究者的代码目前已开源。

图 1:一个生成图像过程的例子。顶行为用户界面的布局展示板,用户可以在此安排需要的目标(如安排天空、动物等生成图像的元素)。第二行是从这一布局中自动获得的场景图。第三行是根据场景图创建的布局图。底层一行是生成的图像。

图 2:研究者提出的网络架构。包括子图网络 G、M、B、A、R,以及创建布局张量 t 的流程。

PAMI TC 奖

PAMI 是 IEEE 旗下的期刊,是模式识别和机器学习领域最重要的学术性汇刊之一,有着很高的影响因子和排名。今年 ICCV 上的 PAMI 奖包含四大奖项,分别是 Helmholtz 奖、Everingham 奖、Azriel Rosenfeld 终身成就奖和杰出研究者奖。

Helmholtz 奖

Helmholtz 奖旨在奖励对计算机视觉领域做出重要贡献的工作,颁发对象是十年前对计算机视觉领域产生重大影响的论文。奖项名称来自 19 世纪的物理、生理学家 Hermann von Helmholtz。

今年的 Helmholtz 奖颁给了两篇论文——《Building Rome in a Day》和《Attribute and Simile Classifiers for Face Verification》。

《Building Rome in a Day》是华盛顿大学、康奈尔大学和微软的联合研究项目,旨在通过从 Flickr.com 上下载的所有与罗马相关的图像来重建罗马这座城市。他们要设计一个并行分布式系统,匹配这些图像以找到共同点,并使用这些信息来计算城市的三维结构和摄像头的位置。实验结果表明,在一个拥有 500 个计算核心的集群中,他们可以在不到一天的时间内重建包含 15 万张图像的城市。

《Attribute and Simile Classifiers for Face Verification》是哥伦比亚大学的一项研究。在这篇论文中,研究者提出了两种人脸验证的方法——「attribute」分类器和「simile」分类器。二者都不需要昂贵的图像对对齐。与当时的最佳分类器相比,错误率分别降低了 23.92% 和 26.34%,合并后的错误率降低了 31.68%。

Everingham 奖 

Everingham 奖的设立初衷是纪念计算机视觉领域专家 Mark Everingham 并激励后来者在计算机视觉领域做出更多贡献。颁奖对象包括为计算机视觉社区其他成员做出巨大贡献的无私研究者或研究团队。

本次获得 Everingham 奖项的分别是亚马逊杰出科学家及研究主管 Gerard Medioni 和「Labeled Faces in the Wild」(LFW)人脸数据集的团队,包括 Erik Learened-Miller、Gary B.Huang、Tamara Berg 等人。

Gerard Medioni 因其几十年来为 CVPR&ICCV 大会所做出的卓越贡献而获此荣誉,他还发起了用于组织大会和研讨会的统一注册系统,此外他也是计算机视觉基金会的联合创始人,其研究范围涵盖了计算机领域的广泛议题,例如边缘检测、立体和运动分析、形状推断和描述以及系统集成等。

LFW 团队因 2007 年以来对 LFW 数据集和基准的生成及维护等贡献而获此荣誉,他们的工作有力地推动了在不受控制的现实世界中进行人脸识别的研究进展。

Azriel Rosenfeld 终身成就奖

该奖项是为了纪念已故的计算机科学家和数学家 Azriel Rosenfeld 教授,奖励在长期职业生涯中为计算机视觉领域作出突出贡献的杰出研究者。

今年的 Azriel Rosenfeld 终身成就奖颁给了视觉领域的专家教授 Shimon Ullman。

Shimon Ullman 现任以色列魏茨曼科学院(The Weizmann Institute of Science)计算机科学与应用数学系主任和计算机科学 Samy 和 Ruth Cohn 教授。他的主要研究领域包括人类视觉系统对视觉信息的处理以及计算机视觉等。这项研究的目的在于了解人类自身视觉系统的运作方式以及如何构建具有视觉功能的人工系统,例如如何为残障人士提供帮助等。2015 年,他荣获了以色列计算机科学奖;2016 年成为美国人文与科学院(American Academy of Arts and Sciences)成员。

杰出研究者奖

基于主要研究贡献及对其他研究的激发影响等考量原则,杰出研究者奖旨在奖励对计算机视觉发展作出重大贡献的研究者。今年的杰出研究者奖由 William T. Freeman 和 Shree Nayar 两位教授摘得。

Freeman 是麻省理工学院电气工程与计算机科学系(EECS)的 Thomas 和 Gerd Perkins 教授,他的研究重点包括运动再现、计算机摄影和视觉学习等方面,并拥有 30 多项专利;他先后在 1997 年、2006 年、2009 年和 2012 年的计算机视觉或机器学习会议上获得优秀论文奖,并于 1990 年、1995 年和 2005 年获得论文的「时间检验奖」(Test-of-time Award);他还积极参加计算机视觉、图形和机器学习相关会议,曾担任 ICCV 2005 和 CVPR 2013 的程序委员会共同主席。

Shree Nayar 是哥伦比亚大学计算机科学系教授,其研究领域集中在计算成像、计算机视觉、机器人、图像处理和人机交互等。此外,他还是哥伦比亚大学计算机视觉实验室(Columbia Vision Laboratory,CAVE)的负责人,该实验室主要开发先进的计算机视觉系统。他曾获得 ICCV 1990、 ICPR 1994、CVPR 1994、ICCV 1995、CVPR 2000 和 CVPR 2004 的最佳论文奖。2008 年入选美国国家工程院。

ICCV 2019 的中国力量

在今年的 ICCV 上,中国高校和企业的力量不可忽视。

在投稿阶段,ICCV 2019 官方推特列出了部分投稿单位排名。其中,中科院、清华、华为、百度等高校个企业名列前茅。中科院和清华更是以 237 和 175 篇的论文投稿数量遥遥领先。

在接收结果出来之后,商汤、华为等企业也在第一时间公布了自己的论文被接收情况。其中最亮眼的要数商汤科技,有 57 篇论文入选,其中口头报告论文有 11 篇,主题包括面向目标检测的深度网络基础算子、基于插值卷积的点云处理主干网络等。同时,在 ICCV 2019 的诸多竞赛上,商汤及其联合实验室斩获 13 项世界冠军,包括 OpenImage 物体检测、实例分割赛道冠军等。

华为诺亚方舟实验室在本届的 ICCV 大会中也有不俗的表现,在本届大会上发表(或联合发表)了 19 篇论文,其中两篇工作为口头报告。华为的接收论文涉及计算机视觉的各个领域,覆盖了从底层视觉、中层表示学习到高层语义识别的视觉任务。此外,华为还是今年 ICCV 会议的铂金赞助商。

腾讯优图有 13 篇论文入选本次会议,其中 3 篇被选做口头报告,涉及 2D 图像多视图生成、人脸照片图像转换等多个主题。

作为计算机视觉领域创业公司独角兽,旷视科技今年有 11 篇论文入选,涉及目标检测、行人搜索、模型压缩、文本识别等多个主题。在比赛方面,旷世拿下了今年拿下 5 项任务冠军,包括 COCO 物体检测(Detection)、人体关键点(Keypoint)和全景分割(Panoptic)三项第一,Wider Challenge 2019 行人检测冠军和 VOS 2019 视频对象分割冠军。此外,旷世还获得了 COCO 今年新设立的 Best Paper Award。

以上,是机器之心了解到的公司的论文接收情况。除此之外,百度阿里巴巴等国内企业也有多篇论文入选,更多内容可以关注机器之心 ICCV 网站专题。

理论ICCV 2019旷视科技商汤科技
相关数据
商汤科技机构

作为人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,“以人工智能实现物理世界和数字世界的连接,促进社会生产力可持续发展,并为人们带来更好的虚实结合生活体验”为愿景,旨在持续引领人工智能前沿研究,持续打造更具拓展性更普惠的人工智能软件平台,推动经济、社会和人类的发展,并持续吸引及培养顶尖人才,共同塑造未来。

http://www.sensetime.com
汤晓鸥人物

汤晓鸥,现任香港中文大学信息工程系系主任,兼任中国科学院深圳先进技术研究院副院长。中央组织部“千人计划”入选者,全球人脸识别技术的“开拓者”和“探路者”,商汤科技联合创始人。2014年3月,汤晓鸥团队发布研究成果,基于原创的人脸识别算法,准确率达到98.52%,首次超越人眼识别能力(97.53%)。

相关技术
边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括(i)深度上的不连续、(ii)表面方向不连续、(iii)物质属性变化和(iv)场景照明变化。 边缘检测是图像处理和计算机视觉中,尤其是特征检测中的一个研究领域。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
旷视科技机构

旷视成立于2011年,是全球领先的人工智能产品和解决方案公司。深度学习是旷视的核心竞争力,我们打造出自研的AI生产力平台Brain++并开源其核心——深度学习框架“天元”,实现了算法的高效开发与部署。在持续引领技术进步的同时,我们推动AI产业的商业化落地,聚焦个人物联网、城市物联网、供应链物联网三大赛道,为个人用户带来更出色的美学体验与安全保障、让城市空间更有序、并帮助企业实现工业、仓储数字化升级。我们提供包括算法、软件和硬件产品在内的全栈式、一体化解决方案。

https://www.megvii.com
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

暂无评论
暂无评论~