作者介绍:本文作者芦新峰,吉林大学在读硕士,主要研究方向为目标检测。
【导读】作为计算机视觉领域的三大顶会之一,第32届计算机视觉与模式识别会议(CVPR)于6月16日在美国加州长滩召开。Facebook研究院在该会议上介绍了他们在视觉领域的最新进展。本文对他们的Tutorial进行简要解读,并在文章最后附上会议全文PPT。
在该Tutorial中,四位汇报人分别讲述了他们在图像分割、二维目标检测、三维目标检测以及视频检测分类领域的最新进展。
1.图像分割
报告简介
该报告可以分为两部分,第一部分主要讲述了图像分割领域近十年的发展、该领域的开源数据集以及图像分割模型的评估指标。第二部分讲述了由Facebook研究院提出的用于进行全景分割的Panoptic FPN网络。
全景分割可以看作是语义分割与实例分割的结合体,语义分割对每个像素点进行分类,但是对于同一物体的不同实例个体则不需要再细分;实例分割是对待检测的目标进行分割,并且需要区分同一物体的不同实例个体;而全景分割则是对图中的所有物体进行分割,并且需要区分同一物体的不同实例个体。
Panoptic FPN网络是由FCN语义分割网络与Mask R-CNN实例分割网络结合而来,兼具稳健性和准确性。由于其有效性和概念的简单性,有望成为全景分割领域后续发展的基础。
汇报人简介
Alexander Kirillov是Facebook AI Research(FAIR)的研究科学家,致力于计算机视觉。他于2018年在德国海德堡大学获得计算机科学博士学位。他的主要研究兴趣是视觉推理和结构化计算机视觉问题。
报告内容简介
【全景分割的发展】
【全景分割开源数据集】
【评估指标】
该PPT展示了全景分割的评价标准PQ,在该表达式中,SQ表示预测的分割结果与样本标注的分割结果的mIoU,只有当mIoU的值大于0.5时,才认为分割正确;RQ是目标检测常用的F1评价指标,是召回率和精度的调和平均。
【Panoptic FPN】
该模型的结构如下所示,在保持FPN主干网络不变的同时,引入了一条与Mask R-CNN分支并行的分支进行语义分割。
该分支的结构如下所示,最顶层的输入来自FPN最底层的输出,并通过上采样操作恢复至特征图的四分之一大小。每个上采样阶段由一个3×3的卷积层,一个组归一化,一个ReLU激活函数以及一个两倍双线性内插上采样组成。最后通过1×1卷积层和一个四倍双线性内插上采样恢复到原来的尺寸并使用sofrmax来生成类别标签。
【实验结果】
2.二维目标检测
报告简介
该报告可分为三个部分:目标检测简要介绍、通用的R-CNN框架以及目标检测领域存在的挑战。
目标检测的任务是识别图中的物体、给出物体的类别以及物体的位置。目前基于深度学习的目标检测算法主要有两大类,一类是以SSD、YOLO为代表的一阶段检测算法,一类是以R-CNN为代表的二阶段检测算法。一阶段检测算法速度快,单精度较低;二阶段检测算法精度高,但是速度较慢。汇报人在该报告上主要介绍了以R-CNN为代表的二阶段检测算法的发展。
在报告的最后,汇报人提出了目标检测存在的挑战以及为了应对该挑战他们团队所创建的数据集 —— Large Vocabulary Instance Segmentation (LVIS)。
汇报人简介
Ross Girshick是Facebook AI Research(FAIR)的研究科学家,致力于计算机视觉和机器学习,他于2012年在芝加哥大学获得计算机科学博士学位。他的主要研究兴趣是视觉感知和视觉推理。
报告内容简介
【目标检测的任务】
【通用R-CNN框架】
R-CNN作为R-CNN系列的第一代算法,既采用了传统计算机视觉的思想,也采用了深度学习的思想。通过Selective Search提取所有的proposals,调整大小后送入神经网络,并将生成的feature map保存在本地。然后利用feature map数据训练SVM,最后进行边界框回归。
Fast R-CNN是基于R-CNN和SPPnets进行的改进,它使用RoI pooling层替换最后一层的max pooling层。RoI pooling是池化层的一种,而且是针对RoI的池化,其特点是输入特征尺寸不固定,但是输出特征图尺寸固定。同时,Fast R-CNN 网络的末尾采用并行的全连接层,可以同时输出分类结果和边界框回归结果。
Faster R-CNN的设计与Fast R-CNN相同,但采用了新的网络(RPN)代替了原来的候选区域方法。RPN以第一个卷积网络的输出特征图作为输入,通过在特征图上滑动一个3×3的卷积核来构建与类别无关的候选区域。
Mask R-CNN是一个实例分割模型,该模型由ResNext、RPN、RoI Align、Fast R-CNN以及FCN几部分组成。RoI Align是在Mask R-CNN中提出的一种区域特征聚集方法,很好地解决了RoI pooling操作中量化造成的像素不匹配问题。
【存在的挑战】
【LVIS数据集】
3. 三维目标检测
报告简介
该报告可以分为五部分,第一部分主要介绍了三维图形的表示方法,如体素、点云、三角网格等;第二部分介绍了一些评估指标,如IoU(Intersection over Union)、倒角距离(Chamfer Distance)、F1得分;第三部分介绍了正则坐标(Canonical Coordinates)存在的缺陷,并指出应该使用观察坐标(View Coordinates)进行预测;第四部分介绍了开源的三维图形的数据集;最后一部分,同时也是本报告最重要的一部分,介绍了汇报人提出的三维目标检测网络 —— Mesh R-CNN。
Mesh R-CNN是在Mask R-CNN的基础上改进而来,该网络在二维图像上检测不同的物体,同时生成该物体对应的三角网格,从而实现了三维物体的目标检测。
汇报人简介
Justin Johnson是Facebook AI Research的研究科学家,他在斯坦福大学获得博士学位并于2019年秋季开始担任密歇根大学计算机科学与工程系的助理教授。他的主要研究方向为视觉推理、视觉和语言以及使用深度神经网络生成图像。
报告内容简介
【三维图形表示方法】
体素是体积像素的简称,它是三维空间上最小的分割单位,可以用体素来表示三维图形。它的优点是概念简单,缺点是需要高空间分辨率信息来捕捉精细结构。3D-R2N2是一个3D重建模型,它的输入是待重建物体任意视角的图片,输出为以体素表示的物体。
该网络由2D卷积网络、3D卷积LSTM以及3D反卷积网络组成,给定来自任意视角的一张或多张图片,2D卷积单元先将每个输入图片编码到低维特征,然后将低维特征送入3D卷积LSTM单元,通过关闭输入门选择性地更新单元状态或保持单元状态,最后通过3D反卷积解码LSTM单元的隐藏状态并完成3D目标体素重建。
占用网络(Occupancy Networks)就是一个用隐函数来表示3D图形的网络模型,该网络可以将3D图形的表面表示为神经网络分类器的连续决策边界。该网络等同于一个二分类网络模型,输出结果是该点位于3D图形内部的概率。
点云是一种简单、统一的结构,使用点云表示3D图形的优点是不需大量点即可表示精细结构,但是该方法需要新的体系结构和损失函数,而且该方法不能明确的表示3D图形的表面,如果要为渲染或其他应用程序提取网格需要进行后续处理。在用点云表示3D图形的方法中,一般采用倒角距离(Chamfer distance)来衡量点集之间的距离。
使用三角网格来表示3D图形由许多优点,首先,它是图形的标准表示方法;其次,它能明确地表示3D图形以及3D图形的表面;再者,可以在顶点上附加数据并在整个表面上进行插值(如RGB颜色、纹理坐标、法线向量等)。Pixel2Mesh就是一个可以从单张彩色图片直接生成三维网格的深度学习网络模型。该模型采用图卷积神经网络,利用从输入图像中获取的特征逐步对椭球体网格进行变形从而产生正确的几何图形。该模型的损失函数为预测样本与真实样本之间的倒角距离(Chamfer distance)。 【评估指标】 【坐标比较】正则坐标存在对训练图形过拟合的情况,不容易推广到新的图形或新的类别,因此作者认为应该在观察坐标(view coordinates)中对图形进行预测。 【Mesh R-CNN】Mesh R-CNN模型是在Mask R-CNN的基础上改进而来,该模型可以对单张彩色图像中的物体进行检测,并输出所检测物体对应的三角网格。
该网络使用新的网格预测器来推断3D形状,包括体素分支和网格细化分支。体素分支首先估计对象的粗略3D体素,之后被转换为初始三角形网格。 然后,网格细化分支使用在网格边缘上操作的一系列图形卷积层来调整该初始网格的顶点位置。体素分支和网格细化分支与Mask R-CNN的Box/Mask分支是同源的。该模型的输出是一组框以及对应的预测目标分数、掩码以及3D图形。
该模型的损失函数由四部分组成:实例分割损失函数、体素损失函数、网格损失函数以及网格正则化。
4.视频分类与检测
报告简介
本报告可以分为两部分,第一部分简要介绍了一些与视频分类与检测相关的背景知识,如双流卷积网络、二维网络到三维网络的变换、三维卷积网络以及Non-Local Convolutional Network Blocks等。第二部分主要介绍了汇报人提出的视频识别网络 —— SlowFast Netowrk。
SlowFast网络由两条网络组成,Slow网络,输入为低帧率,用来捕获空间语义信息;Fast 网络,输入为高帧率,用来捕获运动信息。该网络在Kinetics-400上达到了79%的精度,在AVA上也达到了28.3mAP,处于行业最高水平。
汇报人简介
Christoph Feichtenhofer是Facebook AI Research的研究科学家,他于2017年在格拉茨科技大学获得博士学位。他的主要研究方向为计算机视觉和机器学习,研究重点是动态场景理解。
报告内容简介
【研究背景】
下图为经典的双流卷积网络,一条分支负责捕捉空间信息,另一条负责捕捉时间信息。最后将两个分支的softmax分数进行融合,融合的方法有取平均值和训练以叠加的L2标准化softmax分数为特征的多层线性支持向量机。
下图为ST-ResNet的原理图,带有叉号的箭头连通了双流网络的两个分支,将二维空间卷积网络部分拓展到时间域,使得一个网络可以同时学习时间和空间信息。
3D卷积网络与2D卷积网络相比,其卷积核多了一个维度T,这个维度T既可以表示为视频上的连续帧,也可以表示为立体图像中的不同切片。
一般的卷积操作是对局部特征进行加权求和,而Non-local Convolutional Network Blocks是对全局特征进行加权求和。下图展示的是该模块的嵌入式的高斯版本,带有一个512个通道的bottleneck。其中,⊗表示矩阵相乘,⊕表示元素相加,每行都进行softmax操作。
【SlowFast Networks】
Slow分支,输入低帧率低时间分辨率信息,Fast分支,输入高帧率、α倍的高时间分辨率信息,Fast分支使用β倍的通道数来对该分支进行加速,这两个分支都采用3D卷积操作。下图展示了该网络的基本结构,该网络最后通过横向连接对结果进行融合。
SlowFast网络的一个实例。
SlowFast网络的实验评估结果如下,该网络在两个数据集上都取得了迄今为止最好的结果。 PPT全文打包下载:链接:https://pan.baidu.com/s/1EC0o0LHiNDGnm-JTMHMnUw
提取码:kf1a