Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

学术青 作者

ICCV2019下周日开幕!过去五年这些论文进入高引论文TOP10!

下周日,也就是10月27日,大家期待已久的ICCV 2019就要在韩国首尔COEX中心开幕啦!

都说ICCV的论文录用率非常低,实际在今年4303篇论文的投稿中,最终有1077篇论文被接收。相较于2017年28.9%的接收率,今年25.02%的录用率虽略有下降,但与其他AI领域的国际顶会相比论文录用率基本持平。

作为视觉领域的国际顶会,ICCV 2019的一举一动都牵动着CVer的心。

除了投稿数量翻倍,今年的参会人数也是直线上升,据大会官网消息,目前已有7000多名参会者注册报名,可谓相当火爆!

今年的会议为期7天,将于27日正式开幕,2日结束。ICCV大会官网目前已经放出了会议议程,其中60场主题丰富的Workshop、12个Tutorials和Doctoral Consortium等一系列活动都将同期举行。

其中,在10月29日举行的Neural Architects Workshop尤为亮眼。届时,计算机视觉领域奠基人Alan Yuille、马尔奖获得者Ross Girshick、Faster RCNN和ResNet作者任少卿等知名专家学者将会聚一堂,为大家带来精彩的主题报告。

而最受期待的最佳论文和最佳学生论文奖也将会在10月29日揭晓。同时,Azriel Rosenfeld 终身成就奖、Distinguished researcher award(杰出研究员奖)、Mark Everingham 奖、Helmholtz prize 经典论文奖届时也将陆续公布。

最终的大奖将花落谁家呢?有没有很期待呢?

剧透来了!本公号会在接下来的几天将会对ICCV2019录用的优秀论文进行解读,同时也会跟进报道本次大会的盛况,欢迎感兴趣的小伙伴及时关注最新动态哦!

接下来,我们就先来回顾下过去五年ICCV的会议情况。

详解ICCV

不同于在美国每年召开一次的CVPR和只在欧洲召开的ECCV,ICCV在世界范围内每两年召开一次,ICCV的论文录用质量是三大会议中公认级别最高的。

根据AMiner对AI会议的最新排名统计,ICCV位居排行榜第五位,H5指数为127,10H值为23938。目前在中国计算机学会推荐国际学术会议的排名和清华计算机学科推荐列表中,ICCV均为人工智能领域的A类会议。

通过对AMiner平台中ICCV近五年来收录论文数据地进一步挖掘,(详情可查https://www.aminer.cn/conference/53a72d7620f7420be8c6646b),从词云可以看出,ICCV的关键词主要集中在人体姿态估计目标检测语义分割、单一图像、视觉跟踪、深度神经网络卷积神经网络等方向。

通过对五年来ICCV接收论文中所有学者信息的提取,我们分析了这些学者的性别比例、国籍分布与语言分布情况。可以看出,ICCV的投稿学者以男性为主,占比88.7%。从学者分布情况来看,投稿学者主要来自美国、中国,分别占比30.88%、29.25%,其次是日本和意大利,占比4.41%、3.76%。

从投稿学者发表所属机构来看,五年来在ICCV会议中,香港中文大学以65篇论文数量排在首位,卡耐基梅隆大学与中国科学院均以55篇位列第二,清华大学和微软分列第三、第四,分别各发表33篇、30篇。


近五年高引论文TOP10

近五年来ICCV的高引论文TOP1是Facebook RGB大神Ross B. Girshick发表《Fast R-CNN》一文,引用量高达5695次。

2014年R-CNN横空出世,首次将卷积神经网络带入目标检测领域。受SPPnet启发,Ross在2015年发表了Fast R-CNN,它的构思精巧,流程更为紧凑,大幅提高目标检测速度。

在同样的最大规模网络上,Fast R-CNN和R-CNN相比,训练时间从84小时减少为9.5小时,测试时间从47秒减少为0.32秒。在PASCAL VOC 2007上的准确率相差无几,约在66%-67%之间。

高引论文TOP2是发表于2015年的《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》,引用量5027次。

这篇文章出自当时还在微软亚洲研究院的何恺明孙剑以及来自西安交通大学和中国科学技术大学的实习生张祥雨和任少卿。如今,何凯明去了Facebook;张祥雨作为孙剑首个深度学习的博士也随孙剑加入了旷视,成为旷视研究院base model组负责人;而任少卿已成为自动驾驶公司Momenta合伙人兼研发总监,而他也会在今年的Workshop中亮相。

这篇文章的研究成果基于深度卷积神经网络(CNN)的计算机视觉系统,是视觉识别挑战中第一个超越人类视觉能力的计算机系统,在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力,在ImageNet 2012分类数据集中的错误率已降低至4.94%。

排名第三的是发表于2017年的《Mask R-CNN》一文,引用量2423次。作者同样是何恺明、Ross B. Girshick与Georgia Gkioxari、 Piotr Dollár。

Mask R-CNN是一个小巧、灵活的通用对象实例分割框架(object instance segmentation),它不仅可对图像中的目标进行检测,还可以对每一个目标给出一个高质量的分割结果。它在Faster R-CNN基础之上进行扩展,并行地在bounding box recognition分支上添加一个用于预测目标掩模(object mask)的新分支。该网络还很容易扩展到其他任务中,比如估计人的姿势,也就是关键点识别(person keypoint detection)。该框架在COCO的一些列挑战任务重都取得了最好的结果,包括实例分割(instance segmentation)、候选框目标检测(bounding-box object detection)和人关键点检测(person keypoint detection)。


历年最佳论文

通过AMiner 的Best Papers vs. Top Cited Papers in Computer Science 页面(https://www.aminer.cn/bestpaper/ICCV),可以看到ICCV历年来的最佳论文。

ICCV2017年的最佳论文正是排在高引论文第三位的《Mask R-CNN》。

更牛的是本届最佳学生论文奖《Focal Loss for Dense Object Detection》一文也有何恺明的参与。

该篇论文的第一作者 Tsung-Yi Lin 博士毕业于康乃尔大学纽约理工学院,这是他在 Facebook 工作时进行的研究。Tsung-Yi Lin 最著名的工作是他在微软期间提出的 Coco 数据集(论文:《Microsoft coco:Common objects in context》)。

ICCV2015的最佳论文奖授予了由微软剑桥研究院(Microsoft Research, Cambridge UK)、卡内基梅隆大学和意大利布鲁诺凯斯勒研究中心(Fondazione Bruno Kessler)合作的论文《深度神经决策森林》(Deep Neural Decision Forests)

该论文提出将分类树模型和深度神经网络的特征学习相结合进行端到端训练的深度学习方法。该方法使用决策森林(decision forest)作为最终的预测模型,提出了一套完整的、联合的、全局的深度学习参数优化方法。在手写数据库MNIST和图像分类数据库ImageNet的实验中都取得了超越当前最好方法的结果。

ICCV2013最佳论文《From Large Scale Image Categorization to Entry-Level Categories》

作者:Vicente Ordonez,Jia Deng, Yejin Choi, Alexander C. Berg, Tamara L. Berg

ICCV2011最佳论文《Relative attributes》

作者:Devi Parikh,Kristen Grauman


ICCV上的其他奖

Azriel Rosenfeld 终身成就奖

该奖用于奖励在长期职业生涯中为计算机视觉领域作出突出贡献的杰出研究者。

ICCV2017 的Azriel Rosenfeld 终身成就奖颁发给了MIT的Tomaso Poggio教授。Tomaso Poggio是MIT大脑和认知科学系Eugene McDermott教授,生物和计算学习中心联合主任,计算机科学和人工智能实验室成员,是AAAI Founding Fellow。

杰出研究员奖(Distinguished researcher award)

基于主要研究贡献及影响激发其他研究,该奖项用于奖励对计算机视觉发展作出重大贡献的研究者。

2017年杰出研究奖授予了ETH Zentrum 教授 Luc Van Gool 与 Facebook 研究科学家、计算摄影学团队创始人Richard Szeliski。

Luc van Gool是ETH Zurich大学教授,研究领域为计算机视觉图像处理。Richard Szeliski是Facebook的研究科学家、计算摄影组主任。

Mark Everingham奖

该奖项用于奖励为计算机视觉社区作出无私而重要贡献的研究员,包括个人和团队。

2017年的Everingham prize颁发给了Caffe团队和ICVSS组织者。深度学习框架Caffe,它的作者贾扬清目前任职于阿里巴巴,曾在Facebook、谷歌大脑工作过,也是TensorFlow的作者之一。

Helmholtz prize经典论文奖

该奖项主要颁发给对计算机视觉研究有重大意义、十年前的的论文,以表彰他们在计算机视觉领域作出的基础贡献。

2017年的经典论文主要有以下7篇:

Space-time interest points  I Laptev and T Lindeberg,I Laptev and T Lindeberg

Recognizing action at a distance,A Efros, A Berg, G Mori, J Malik, 

Video Google:A text retrieval approach to object matching in videos,J Sivic, A Zisserman,

Recognising panoramas,M Brown, D Lowe, 

Discovering objects and their location in images,J Sivic, B Russell, A Efros, A Zisserman, W Freeman 

The pyramid match kernel:Discriminative classification with sets of image features,K Grauman, T Darrell

Actions as space-time shapes,M Blank, L Gorelick, E Shechtman, M Irani, R Basri 

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论ICCV 2019论文
2
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
何恺明人物

Facebook AI Research研究科学家。Residual Net提出者。

任少卿人物

任少卿,Momenta公司研发总监,毕业于中国科技大学与微软亚洲研究院联合培养博士班,曾参与提出适用于物体检测的高效框架Faster RCNN和图像识别算法ResNet,后者相关论文于2016年获得计算机视觉领域顶级会议CVPR 的Best Paper Award。

Luc Van Gool人物

Luc Van Gool博士于2006年联合创办了kooaba AG,并担任其科学顾问。 Gool博士也是eSaturnus,Eyetronics,GeoAutomation和Procedural Inc.的联合创始人。他还担任计算机图形学和计算机视觉期刊《Foundations & Trends》的主编。 他领导瑞士苏黎世联邦理工学院的计算机视觉实验室和比利时鲁汶大学的VISICS研究所。

孙剑人物

孙剑,男,前微软亚研院首席研究员,现任北京旷视科技有限公司(Face++)首席科学家、旷视研究院院长 。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇,两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类,检测和定位,MS COCO 检测和分割) ,其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

决策森林技术

随机森林或随机决策森林是用于分类、回归和其他任务的集成学习方法,其通过在训练时构建多个决策树并输出作为类的模式(分类)或个体树的平均预测(回归)。随机决策森林纠正了决策树过度拟合其训练集的倾向。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

人体姿态估计技术

人体姿态估计是计算机视觉领域的一个重要问题,主要用于跟踪一个人的每一个小动作并实时进行生物力学分析。

推荐文章
暂无评论
暂无评论~