深度学习界的「春晚」CVPR 2017 已在夏威夷火奴鲁鲁 Hawaii Convention Center 开幕,在本次大会接收的众多论文当中,有华人参与的接近半数。这七百余篇论文中有哪些亮点?众多参会的中国研究机构又贡献了多少?我们为你整理了一篇观看指南。
不久之前,谷歌发布了 2017 版学术指标。从这次公布的数据来看,只有少数学术会议的影响因子超过了热门的预印版论文发布平台 arXiv。
其中可以看到,在计算机视觉与模式识别领域,CVPR 是影响力最大的论文发布平台。CVPR 全称为「IEEE Conference on Computer Vision and Pattern Recognition」(计算机视觉与模式识别会议),是近年来计算机视觉领域全球最影响力、内容最全面的顶级学术会议,由专业技术学会 IEEE(电气和电子工程师协会)主办。
不仅在学术领域,随着深度学习在图像处理领域的应用热潮,越来越多的业界研究机构也在将目光投向 CVPR,从数量众多的大会赞助商中,我们就可以感受到这一活动的关注度之高。在漫长的等待之后,本届大会已于 2017 于 7 月 21 日在美国夏威夷开幕,并将举行至 7 月 26 日。
作为领域内具有权威性的会议,今年的 CVPR 共收到有效提交论文 2680 篇,其中 2620 篇论文经过完整评议,最终总计 783 篇被正式录取(占总提交数的 29%)。被接收的论文中,71 篇将进行长口头演讲,144 篇进行短亮点演讲。
华人不仅占据了论文作者的半壁江山,国内众多人工智能公司也已摩拳擦掌要在 CVPR 大会上大显身手了。本文中,我们将盘点国内外人工智能公司在 CVPR 2017 上展现的技术,以及即将举办的精彩活动。文后我们附上了机器之心此前报道过的 CVPR 2017 论文。
产业界 CVPR 2017 论文
有众多业界公司参与了 CVPR 2017。据大会官网的数据统计,全球共有约 90 家企业参与到本次大会中。海外科技巨头谷歌、微软、Facebook、亚马逊、苹果、英特尔、英伟达等,毫无意外都有论文被接收。即使是最为低调的苹果,在日前新开的在线期刊《Apple Machine Learning Journal》中,最先介绍的也是该公司将在 CVPR 2017 大会上展示的论文。
把目光转向国内公司,腾讯、阿里巴巴、京东、滴滴等大型互联网公司,和商汤、Momenta、驭势、格灵深瞳等初创企业也都或多或少地参与了这次大会。国内公司不仅提交论文,也在会议期间举办演讲和各类活动,中国公司在机器学习领域的积累正在逐渐显现。
以下,我们将介绍国内几家人工智能公司和机构在 CVPR 2017 上的论文接收情况,其中也包括这些参会者在 CVPR 2017 上将要介绍的重点论文。
微软亚洲研究院
据机器之心了解,微软有 28 篇论文被 CVPR 2017 接收,其中微软亚洲研究院有 18 篇论文被接收。此外,微软全球执行副总裁沈向洋将在大会上发表主旨演讲。
在 6 月 16 日北京中关村微软大厦举办的「微软亚洲研究院创研论坛——CVPR 2017 论文分享会」上,微软亚研的研究员已经分享了数篇被 CVPR 2017 接收的论文:
论文:StyleBank: An Explicit Representation for Neural Image Style Transfer
简介:作者们在这一设计中运用卷积神经网络作为基础,在通过卷积作用得到特征层后,加入风格化分支——StyleBank 层作相应处理,可以得到很好的图像效果。
论文:Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects
简介:微软亚洲研究院姚霆的相关研究成果为 Image Captioning with Attributes,通过利用属性(attributes)对图像标注进行改进,这种方法有很大的潜力可以成为生成开放性词汇句子(open-vocabulary sentences)的有效方法。这种以搜索为基础的方法,应用卷积神经网络加循环神经网络,可以使图像标注系统更加实用。
论文:Collaborative Deep Reinforcement Learning for Joint Object Search
简介:作者们提出了一种新的多智能体间的 Q-学习的方法,即门控选通式连接(gated cross connections)的深度 Q 网络——给交流模块设计一个门控结构,可以让每个智能体去选择相信自己还是相信别人。这是一种对虚拟智能体进行联合训练的高效方法。它有效地利用了相关物体间的有用的上下文情境信息(contextual information),并且改进了目前最先进的主动定位模型(active localization models)。
论文:Neural Aggregation Network For Video Face Recognition
简介:传统的深度学习方法在进行人脸识别时需要对每一帧都进行特征提取,这样的效率是很低的。而 NAN 网络可以对视频或目标对象进行高度紧凑(highly-compact)的表征(128-d);利用注意力机制(attention mechanism)进行学习型聚合(learning-based aggregation);这种网络在三个关于人脸视频的基准中都有着一流的表现。作者认为这种聚合网络是简单并且通用的,今后也会用于其它一些视频识别的任务当中。
在微软众多被接收的论文中,我们注意到一篇 Oral 论文:Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition,介绍了一种端到端,逐层集中 Attention 到有用位置的方法。该研究作者为微软亚研研究员梅涛等人。大会期间,该团队将上台进行 12 分钟的演讲,详细介绍此项研究成果。
阿里巴巴
据机器之心了解,阿里巴巴共有四篇论文被 CVPR 2017 接收,其中阿里 AI Lab 3 篇,阿里 iDST 1 篇;阿里 iDST 视觉计算负责人华先胜也将在 ReID & MTMCT Workshop 上发表题为《Practices of Large-Scale Target Re-Identification》的演讲。
以下为阿里巴巴 CVPR 2017 论文:
Deep Level Sets for Salient Object Detection
作者:Ping Hu、Bing Shuai、Jun Liu、Gang Wang
Global Context-Aware Attention LSTM Networks for 3D Action Recognition
作者:Jun Liu、Gang Wang、Ping Hu、Ling-Yu Duan、Alex C. Kot
Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling
作者:Abrar H. Abdulnabi, Bing Shuai, Stefan Winkler, Gang Wang
Video to Shop: Exactly Matching Clothes in Videos to Online Shopping Images
作者:Zhi-Qi Cheng、Xiao Wu、Yang Liu、华先胜
此外,阿里在 CVPR 期间也将会演示拍立淘技术,简单介绍就是拍照搜索技术。
拍立淘技术演示图片
腾讯 AI Lab
作为腾讯最新成立的人工智能实验室,腾讯 AI Lab 在基础层的技术研究上实力非常。机器之心是首家报道腾讯 AI Lab 研究的媒体,我们注意到腾讯 AI Lab 首次公开的有关风格迁移的研究论文此次也被 CVPR 2017 所接收。
据统计,腾讯 AI Lab 共有 6 篇论文被 CVPR 2017 接收,以下是对这些论文的简要介绍:
论文一:Real Time Neural Style Transfer for Videos
简介:本文用深度前向卷积神经网络探索视频艺术风格的快速迁移,提出了一种全新两帧协同训练机制,能保持视频时域一致性并消除闪烁跳动瑕疵,确保视频风格迁移实时、高质、高效完成。
论文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images
简介:论文首次提出一种全尺寸、无标注、基于病理图片的病人生存有效预测方法 WSISA,在肺癌和脑癌两类癌症的三个不同数据库上性能均超出基于小块图像方法,有力支持大数据时代的精准个性化医疗。
论文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
简介:针对图像描述生成任务,SCA-CNN 基于卷积网络的多层特征来动态生成文本描述,进而建模文本生成过程中空间及通道上的注意力模型。
论文四:Deep Self-Taught Learning for Weakly Supervised Object Localization
简介:本文提出依靠检测器自身不断改进训练样本质量,不断增强检测器性能的一种全新方法,破解弱监督目标检测问题中训练样本质量低的瓶颈。
论文五:Diverse Image Annotation
简介:本文提出了一种新的自动图像标注目标,即用少量多样性标签表达尽量多的图像信息,该目标充分利用标签之间的语义关系,使得自动标注结果与人类标注更加接近。
论文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images
简介:基于曼哈顿结构与对称信息,文中提出了单张图像三维重建及多张图像 Structure from Motion 三维重建的新方法。
商汤科技
作为一家专注于计算机视觉和深度学习的创业公司,商汤科技也将在 CVPR 2017 上带来一系列的技术 Demo、Presentation、PartyTime 等活动。据机器之心了解,商汤科技及香港中大-商汤科技联合实验室共有 23 篇论文被接收。
其中,商汤科技高级研究员钱晨的论文获得 CVPR2017 Spotlight 提名,他将在大会上做四分钟的演讲;商汤科技执行研发总监林倞也将会在 NITRE WORKSHOP 环节做出演讲。
两篇 Presentation 论文分别为:
- Residual Attention Network for Image Classification
- Attention-aware Face Hallucination via Deep Reinforcement Learning
日前机器之心对商汤科技 CVPR 2017 论文的报道中,对其中的几篇论文进行了详细的解读,感兴趣的读者请参阅:业界 | 23 篇论文入选 CVPR2017,商汤科技精选论文解读。
学术界 CVPR 2017 论文
在这一部分,我们根据公开信息对学术界的论文进行了盘点。需要说明的是这些论文可能包含学术界与产业界合作的论文,而且以下某些院校被 CVPR 2017 接收的论文可能远远超过我们收集到的,因此如果读者们发现我们遗漏了哪些精彩的论文,希望能够在下面留言。
1. 厦门大学信息学院
论文一:Cross-Modality Binary Code Learning via Fusion Similarity Hashing
作者:Hong Liu, Rongrong Ji(纪荣嵘), Yongjian Wu, Feiyue Huang, Baochang Zhang
论文二:Non-Local Deep Features for Salient Object Detection
作者:Zhiming Luo, Akshaya Mishra, Andrew Achkar, Justin Eichel, Shaozi Li(李绍滋), Pierre-Marc Jodoin
论文三:Re-Ranking Person Re-Identification With k-Reciprocal Encoding
作者:Zhun Zhong, Liang Zheng, Donglin Cao, Shaozi Li(李绍滋)
论文四:Removing Rain From Single Images via a Deep Detail Network
作者:Xueyang Fu, Jiabin Huang, Delu Zeng, Yue Huang, Xinghao Ding(丁兴号), John Paisley
2. 中国科学院大学电子学院模式识别与智能系统开发实验室
论文一:SRN: Side-output Residual Network for Object Symmetry Detection in the Wild(CVPR 2017 Oral 1-1C)
作者:柯炜
简介:论文创新性地提出了侧输出残差网络并将其成功应用在大规模复杂背景下的目标对称性检测任务中,取得了 State-Of-The-Art 性能。该架构显著地提升了多尺度特征融合性能,对尺度相关的深度学习任务具有应用价值。
论文二:Oriented Response Networks (CVPR 2017 Poster)
作者:周彦钊
简介:论文从深度卷积网络最为核心的卷积模块出发,创新的设计了具有主动旋转能力的向量场滤波器 ARF,赋予了深度网络显式编码方向信息的能力,并显著提升深度特征对旋转的泛化性能。该深度网络架构在多个评测中取得 State-Of-The-Art 性能。
论文三:Self-learning Scene-specific Pedestrian Detectors using a Progressive Latent Model (CVPR 2017 Poster)
作者:叶齐祥
简介:论文提出了一种新颖的针对特定场景的自学习行人检测算法,算法利用原始视频数据即可自动挖掘其中的行人目标并学习检测器,无需进行耗时耗力的逐帧数据标注,取得了 State-Of-The-Art 行人检测性能。
3. 南开大学媒体计算实验室
论文一:Richer Convolutional Features for Edge Detection
作者:Y Liu, MM Cheng, X Hu, K Wang, X Bai
论文二:Deeply supervised salient object detection with short connections
作者:Q Hou, MM Cheng, X Hu, Z Tu, A Borji
论文三:GMS: Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence
作者:JW Bian, W Lin, Y Matsushita, SK Yeung, TD Nguyen, MM Cheng
论文四:Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach
作者:Y Wei, J Feng, X Liang, MM Cheng, Y Zhao, S Yan
4. 中科院计算所
Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks
作者:Haomiao Liu, Ruiping Wang(王瑞平), Shiguang Shan, Xilin Chen
5. 清华大学计算机系智能技术与系统国家重点实验室、清华国家信息实验室、清华大学计算机科学与技术系、英特尔中国研究院、清华大学电子工程系
RON: Reverse Connection With Objectness Prior Networks for Object Detection
作者:孔涛、孙富春、Anbang Yao、刘华平、Ming Lu 和陈玉荣
Real-Time Neural Style Transfer for Videos
作者:Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao Jiang, Xiaolong Zhu, Zhifeng Li, Wei Liu(刘威,腾讯 AI)
6. 大连理工大学信息与通信工程学院
李培华两篇论文被 CVPR 2017 录用, 其中一篇为口头报告。
G2DeNet: Global Gaussian Distribution Embedding Network and Its Application to Visual Recognition(Oral 4-2A)
作者:Qilong Wang, Peihua Li(李培华), Lei Zhang
Mind the Class Weight Bias: Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation
作者:Hongliang Yan, Yukang Ding, Peihua Li(李培华), Qilong Wang, Yong Xu, Wangmeng Zuo
7. 北京大学计算机科学技术研究所字形计算技术实验室
北大学生刘俊成与大连理工大学、辽宁省泛在网络与服务软件重点实验室合作的一篇论文。
Incremental Kernel Null Space Discriminant Analysis for Novelty Detection
作者:Juncheng Liu(刘俊成), Zhouhui Lian, Yi Wang, Jianguo Xiao
更多亮点
多家海外科技巨头也在 CVPR 开幕前夕介绍了自己在大会上即将展示的研究。
谷歌 CVPR 2017 研究集合:https://research.googleblog.com/2017/07/google-at-cvpr-2017.html
共有超过 250 名 Google 员工将参加本次会议,同时参与和组织 CVPR 上的多个研讨会。
Facebook CVPR 2017 研究集合:https://research.fb.com/advancing-computer-vision-technologies-at-cvpr-2017/
Facebook 与 MIT Media Lab 的研究《Robocodes: Towards Generative Street Addresses from Satellite Imagery》获得了大会 workshop 最佳论文奖,在 EarthVision 研讨上,研究人员将介绍这项工作,它有关遥感图像的大规模计算机视觉。
IBM CVPR 2017 研究集合:https://www.ibm.com/blogs/research/2017/07/computer-vision-cvpr-2017/
机器之心报道过的 CVPR2017 内容
学术盛宴:微软亚洲研究院CVPR 2017论文分享会全情回顾
用单张图片推理场景结构:UC Berkeley提出3D景深联合学习方法
CMU借力Panoptic Studio提出新方法,帮助计算机读懂肢体语言
MIT 提出Network Dissection框架,全自动窥探神经网络训练的黑箱
CVPR 2017最新论文:使用VTransE网络进行视觉关系检测
你来手绘涂鸦,人工智能生成「猫片」:edges2cats图像转换详解
谷歌提交新论文提出认知型地图构建器和规划器:同时应对视觉导航的几何和语义任务