Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Transformer拿下CV顶会大奖,微软亚研获ICCV 2021最佳论文

ICCV 2021 全部奖项已经公布,来自微软亚洲研究院的研究者获得 ICCV 2021 马尔奖(最佳论文);最佳学生论文奖由苏黎世联邦理工学院、微软研究者获得。


10 月 11 日 - 10 月 17 日,原定于加拿大蒙特利尔举办的计算机视觉领域三大顶会之一——ICCV 2021,正在线上举行。今天,大会全部奖项已经公布。

6 月中旬,ICCV 2021 官方公布了论文评审结果。据统计,大会共接收了 6236 篇有效论文投稿,在首轮 desk reject 之后还有 6152 篇。


7 月下旬,大会放出了接收论文列表,共有 1617 篇被接收,其中包括 210 篇 Oral 和 1412 篇 Poster 论文,接收率约为 25.9%。相较于 2019 年的 25%,ICCV 2021 的接收率略有上升。


在所有被接收的论文中,来自中国的论文数量占比最高,达到了 43.2%,约为第二位美国(23.6%)的两倍。


从接收论文的主题领域分布来看,前三位分别是:迁移 / 小样本 / 无监督学习、图像与视频合成、识别与分类。


在所有投稿中,各个主题领域的接收率如何?ICCV 官方也进行了详细的统计:


接下来,介绍一下本届大会的获奖信息。

最佳论文 - 马尔奖

来自微软亚洲研究院的研究者获得 ICCV  2021 马尔奖(最佳论文)。论文作者主要包括来自中国科学技术大学的刘泽、西安交通大学的林宇桐、微软的曹越等人。

在 Swin Transformer 论文公开没多久之后,微软官方就在 GitHub 上开源了代码和预训练模型,涵盖图像分类目标检测以及语义分割任务。目前,该项目已收获 4600 星。

  • 获奖论文:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

  • 作者机构:微软亚洲研究院

  • 论文地址:https://arxiv.org/pdf/2103.14030.pdf

  • 项目地址:https://github.com/microsoft/Swin-Transformer



本文提出了一种新的 vision Transformer,即 Swin Transformer,它可以作为计算机视觉的通用骨干。相比之前的 ViT 模型,Swin Transformer 做出了以下两点改进:

其一,引入 CNN 中常用的层次化构建方式构建分层 Transformer;
其二,引入局部性(locality)思想,对无重合的窗口区域内进行自注意力计算。

首先来看 Swin Transformer 的整体工作流,下图 3a 为 Swin Transformer 的整体架构,图 3b 为两个连续的 Swin Transformer 块。


该研究的亮点在于利用移动窗口对分层 Transformer 的表征进行计算。通过将自注意力计算限制在不重叠的局部串口,同时允许跨窗口连接。这种分层结构可以灵活地在不同尺度上建模,并具有图像大小的线性计算复杂度。下图  2 为在 Swin Transformer 架构中利用移动窗口计算自注意力的工作流:


模型本身具有的特性使其在一系列视觉任务上都实现了颇具竞争力的性能表现。其中,在 ImageNet-1K 数据集上实现了 86.4% 的图像分类准确率、在 COCO test-dev 数据集上实现了 58.7% 的目标检测 box AP 和 51.1% 的 mask AP。目前在 COCO minival 和 COCO test-dev 两个数据集上,Swin-L(Swin Transformer 的变体)在目标检测实例分割任务中均实现了 SOTA。


此外,在 ADE20K val 和 ADE20K 数据集上,Swin-L 也在语义分割任务中实现了 SOTA。

最佳学生论文奖

  • 获奖论文:Pixel-Perfect Structure-from-Motion with Featuremetric Refinement

  • 作者机构:苏黎世联邦理工学院、微软

  • 论文地址:https://arxiv.org/pdf/2108.08291.pdf

  • 项目地址:github.com/cvg/pixel-perfect-sfm (http://github.com/cvg/pixel-perfect-sfm)



论文摘要:在多个视图中寻找可重复的局部特征是稀疏 3D 重建的基础。经典的图像匹配范式一次性检测每个图像的全部关键点(keypoint),这可能会产生定位不佳的特征,使得最终生成的几何形状出现较大错误。研究者通过直接对齐来自多个视图的低级图像信息来细化运动恢复结构(structure-from-motion,SFM)的两个关键步骤:首先在任何几何估计之前调整初始关键点位置,然后细化点和相机姿态作为一个后处理。这种改进对大的检测噪声和外观变化具有稳健性,因为它基于神经网络预测的密集特征优化了特征度量误差。这显著提高了相机姿态和场景几何的准确性,并适用于各种关键点检测器、具有挑战性的观看条件和现成的(off-the-shelf)深度特征。该系统可以轻松扩展到大型图像集合,从而实现像素完美的大规模众包定位。该方法现已封装为 SfM 软件 COLMAP 的附加组件。

细化几何原本是一种局部操作,但该研究表明局部密集像素可以起到较大的作用。SfM 通常尽可能早地丢弃图像信息,该研究借助直接对齐用几个步骤替代了 SfM。下图 2 是该方法的概览:


最佳论文荣誉提名奖

今年有四篇论文获得 ICCV 2021 最佳论文荣誉提名奖。

  • 论文 1:Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

  • 作者机构:谷歌、加州大学伯克利分校

  • 论文地址:https://arxiv.org/pdf/2103.13415.pdf




论文摘要:NeRF(neural radiance fields)使用的渲染过程以每像素单个光线对场景进行采样,因此当训练或测试图像以不同分辨率观察场景内容时,可能会产生过度模糊的渲染。该研究提出了 mip-NeRF,它以连续值的比例表示场景。他们通过高效地渲染消除反锯齿圆锥锥体( anti-aliased conical frustums)取代光线,mip NeRF 减少了混叠瑕疵(aliasing artifacts),并显著提高了其表示精细细节的能力,同时比 NeRF 快 7%,而大小仅为 NeRF 的一半。

与 NeRF 相比,mip NeRF 在数据集上降低了 17% 的平均错误率,在具有挑战性的多尺度变体上降低了 60% 的平均错误率。此外,Mip NeRF 还能够在多尺度数据集上与超采样 NeRF 的精度相匹配,同时速度快 22 倍。

  • 论文 2:OpenGAN: Open-Set Recognition via Open Data Generation

  • 作者机构:卡内基梅隆大学

  • 论文地址:https://arxiv.org/pdf/2104.02939.pdf



论文摘要:真实世界的机器学习系统需要分析新的测试数据,而这些测试数据与训练数据不同。在 K-way 分类中,这被清晰地表述为开集识别,其核心是区分 K 个闭集类之外的开集数据的能力。关于开集的鉴别,有两种思想:1) 利用离群(outlier)数据作为开集,对开 - 闭(open-vs-closed)二进制鉴别器分别进行鉴别学习;2) 使用 GAN 对闭集数据分布进行无监督学习,并将其鉴别器作为开集似然函数。然而,前者不能很好地泛化到不同的开放测试数据,而后者由于 GAN 的训练不稳定效果不佳。 

该研究提出了 OpenGAN,它通过将每种方法与几种技术见解相结合来解决每种方法的局限性。首先,他们展示了在一些真实的离群数据上,精心选择的 GAN  鉴别器已经达到了 SOTA 水平。其次,该研究用对抗性合成的假数据扩充可用的真实开集示例集。第三,也是最重要的,该研究在 K-way 网络计算的特征上可以构建鉴别器。大量实验表明,OpenGAN 显著优于先前的开集方法。

  • 论文 3:Viewing Graph Solvability via Cycle Consistency

  • 作者机构:特伦托大学等

  • 论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Arrigoni_Viewing_Graph_Solvability_via_Cycle_Consistency_ICCV_2021_paper.pdf



论文摘要:在运动恢复结构(structure-from-motion,SFM)中,视图图(viewing graph)是一种顶点与相机对应、边代表基本矩阵的图。该研究提供了一种新的公式和算法,用于确定视图图是否可解(即它唯一地确定一组投影相机)。已知的理论条件要么不能完全描述所有视图图的可解性,要么涉及求解含大量未知数的多项式方程组而非常难以计算。该论文的主要成果是提出一种利用循环一致性来减少未知数的方法。该研究通过以下 3 种方法来进一步理解可解性:(i) 完成对最多 9 个节点的所有先前未定最小图的分类;(ii) 将实际可解性测试扩展到具有最多 90 个节点的最小图;(iii) 通过证明有限可解性不等于可解性明确回答了一个开放型研究问题。最后,该研究以一个真实数据的实验表明在实际情况中出现了无解的图。

  • 论文 4:Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction

  • 作者机构:Facebook AI 研究院、伦敦大学学院

  • 论文地址:https://arxiv.org/pdf/2109.00512.pdf



论文摘要:由于缺乏真实的以类别为中心的 3D 标注数据,传统的 3D 物体类别学习方法,主要是在合成数据集上进行训练和评估。该研究的主要目标是通过收集与现有合成数据类似的真实世界数据来促进该领域的进展。因此,这项工作的主要贡献是一个名为「Common Objects in 3D」的大规模数据集,,其中含有真实的多视角物体类别图像,并附有相机姿态和 3D 点云标注真值。该数据集包含来自近 19,000 个视频的 150 万帧捕获了 50 个 MS-COCO 类别的物体,因此它在类别和物体的数量方面都比其他数据集具有明显优势。研究者利用这个新数据集对几种新视图合成和以类别为中心的 3D 重建方法进行了大规模评估。此外,该研究还贡献了 NerFormer——一种新颖的神经渲染方法,利用强大的 Transformer 来重建仅给定少量视图的物体。

PAMI TC 奖

今年 ICCV 上的 PAMI 奖依旧包括四大奖项,分别是 Helmholtz 奖、Everingham 奖、Azriel Rosenfeld 终身成就奖和杰出研究者奖。

PAMI 是 IEEE 旗下的期刊,是模式识别机器学习领域最重要的学术性汇刊之一,有着很高的影响因子和排名。

Helmholtz 奖

Helmholtz 奖项名称来源于 19 世纪的物理、生理学家 Hermann von Helmholtz,旨在奖励对计算机视觉领域做出重要贡献的工作,颁发对象是十年前对计算机视觉领域产生重大影响的论文。


今年共有 3 篇论文获得了 Helmholtz 奖,分别是:

  • 论文 1:《ORB: An efficient alternative to SIFT or SURF》

  • 论文链接:https://ieeexplore.ieee.org/document/6126544


  • 论文 2:《HMDB: A large video database for human motion recognition》

  • 论文链接:https://ieeexplore.ieee.org/document/6126543


  • 论文 3:《DTAM: Dense tracking and mapping in real-time》

  • 论文链接:https://ieeexplore.ieee.org/document/6126513


Everingham 奖

Everingham 奖的设立初衷是纪念计算机视觉领域专家 Mark Everingham 并激励后来者在计算机视觉领域做出更多贡献。颁奖对象包括为计算机视觉社区其他成员做出巨大贡献的无私研究者或研究团队。

本次获得 Everingham 奖项的分别是 Detectron 目标检测和分割软件团队和 KITTI 视觉基准团队。


Detectron 目标检测和分割软件团队成员包括 Ross Girshick, Yuxin Wu, llija Radosavovic, Alexander Kirillov, Georgia Gkioxari,Francisco Massa,Wan-Yen Lo,Piotr Dollar, 何恺明和其他开源贡献者。


KITTI 视觉基准团队成员包括 Andreas Geiger, Philip Lenz, Christoph Stiller, Raquel Urtasun 等。

Azriel Rosenfeld 终身成就奖


Azriel Rosenfeld 终身成就奖是为了纪念已故的计算机科学家和数学家 Azriel Rosenfeld 教授,旨在表彰在长期职业生涯中为计算机视觉领域作出突出贡献的杰出研究者。

今年的 Azriel Rosenfeld 终身成就奖颁给了 UC 伯克利电气工程与计算机科学系 NEC 特聘教授 Ruzena Bajcsy。


Ruzena Bajcsy 在斯坦福大学获得了计算机科学博士学位。从 1972 年到 2001 年,Ruzena Bajcsy 是宾夕法尼亚大学计算机与信息科学系的教授,并于 1978 年建立了通用机器人、自动化、传感和感知 (GRASP) 实验室。28 年间,她一直从事机器人研究,包括计算机视觉、触觉感知以及一般的系统识别问题。

在加入 UC 伯克利之前,她是美国国家科学基金会计算机与信息科学与工程理事会的负责人(1999-2001 年)。

Ruzena Bajcsy 美国国家工程院 (1997) 和美国国家医学科学院 (1995) 的成员,以及 ACM Fellow 和 AAAI Fellow。2002 年 11 月,她被《探索》杂志评为 50 位最重要的女性之一。由于在机器人和自动化领域的贡献,Ruzena Bajcsy 获得了本杰明富兰克林计算机和认知科学奖章(2009 年)和 IEEE 机器人与自动化奖(2013 年)。

杰出研究者奖

基于主要研究贡献及对其他研究的激发影响等考量原则,杰出研究者奖旨在奖励对计算机视觉发展作出重大贡献的研究者。

今年的杰出研究者奖获得者为 Pietro Perona 和 Cordelia Schmid。


Pietro Perona 是加州理工学院教授,他以计算机视觉领域的研究成果著名,同时也是加州理工学院计算机视觉小组的负责人。


Cordelia Schmid 是法国国家信息与自动化研究所(INRIA)的 THOTH 项目组负责人。她在 2012 年入选 IEEE Fellow,以表彰其在大规模图像检索、分类和目标检测方面的贡献。2020 年,Cordelia Schmid 获得了 Milner 奖。
理论Transformer微软亚洲研究院ICCV 2021
1
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
何恺明人物

Facebook AI Research研究科学家。Residual Net提出者。

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。 大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法,以便可以对注释词执行检索。 手动图像注释耗时,费力且昂贵; 为了解决这个问题,人们已经对自动图像标注进行了大量研究。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

似然函数技术

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“ 似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

新视图合成技术

新视图合成旨在从给定图像的不同视点合成新图像。

暂无评论
暂无评论~