2019/05/15 09:24

性能超越何恺明Mask R-CNN！华科大开源图像分割新方法

CVPR是IEEE Conference on Computer Vision and Pattern Recongnition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。

CVPR 2019一共收到5165篇有效投递，一共接收了1300篇。本文选取了其中的口头报告论文进行推荐。

论文题目
Mask Scoring R-CNN
作者
Zhaojin Huang, Lichao Huang, Yongchao Gong, Chang Huang, Xinggang Wang
会议/年份
CVPR 2019
链接
https://arxiv.org/abs/1903.00241v1
Abstract
Letting a deep network be aware of the quality of its own predictions is an interesting yet important problem. In the task of instance segmentation, the confidence of instance classification is used as mask quality score in most instance segmentation frameworks. However, the mask quality, quantified as the IoU between the instance mask and its ground truth, is usually not well correlated with classification score. In this paper, we study this problem and propose Mask Scoring R-CNN which contains a network block to learn the quality of the predicted instance masks. The proposed network block takes the instance feature and the corresponding predicted mask together to regress the mask IoU. The mask scoring strategy calibrates the misalignment between mask quality and mask score, and improves instance segmentation performance by prioritizing more accurate mask predictions during COCO AP evaluation. By extensive evaluations on the COCO dataset, Mask Scoring R-CNN brings consistent and noticeable gain with different models, and outperforms the state-of-the-art Mask R-CNN. We hope our simple and effective approach will provide a new direction for improving instance segmentation. The source code of our method is available at \url{this https URL}.

推荐理由

华中科技大学的黄钊金作为一作完成的研究Mask Scoring R-CNN，在COCO图像实例分割任务上超越了何恺明的Mask R-CNN，拿下了计算机视觉顶会CVPR 2019的口头报告，也就是说这篇论文从5000多篇投稿中脱颖而出，成为最顶尖的5.6%。

这篇论文中，研究人员提出了一种给算法的“实例分割假设”打分的新方法。这个分数打得是否准确，就会影响实例分割模型的性能。而Mask R-CNN等前辈，用的打分方法就不太合适。这些模型在实例分割任务里，虽然输出结果是一个蒙版，但打分却是和边界框目标检测共享的，都是针对目标区域分类置信度算出来的分数。这个分数，和图像分割蒙版的质量可未必一致，用来评价蒙版的质量，可能就会出偏差。

于是，这篇CPR 2019论文就提出了一种新的打分方法：给蒙版打分，他们称之为蒙版得分（mask score）。

上图为COCO 2017测试集（Test-De set）上MS R-CNN和其他实例分割方法的成绩对比。无论基干网络是纯粹的ResNet-101，还是用了DCN、FPN，MS R-CNN的AP成绩都比Mask R-CNN高出一点几个百分点。

传送门：

论文地址：

https://arxiv.org/pdf/1903.00241v1.pdf

该项目已开源：

https://github.com/zjhuang22/maskscoring_rcnn

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

理论CVPR 2019华科大图像分割

相关数据

何恺明人物

Facebook AI Research研究科学家。Residual Net提出者。

来源：个人网站 He, K.

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看，图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程，即把属于同一区域的像索赋予相同的编号。

来源：百度百科

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

目标检测技术

一般目标检测（generic object detection）的目标是根据大量预定义的类别在自然图像中确定目标实例的位置，这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法，并已经为一般目标检测领域带来了显著的突破性进展。

来源：机器之心