2019/05/01 18:31

孙明珊作者哈尔滨工业大学学校目标检测研究方向

最新Anchor-Free目标检测模型—FoveaBox

研究动机

在两阶段的目标检测器中，通常利用预先产生的锚点框去拟合待检测的目标，其中包含对目标物的尺寸、长宽比、位置的拟合，然而锚点框的产生通常是离散变化的，因此锚点框的预设定对该类算法的效果有很大影响。

FoveaBox 为了解除这种影响，类比人类视觉系统感知世界的原理，认为人类先判定某个范围物体是什么，然后再对其边缘轮廓进行仔细判定，而不是去匹配任何事先在脑海里设定的模板矩形框，从而开辟了无需锚点框的检测方法：1）预测类别相关的语义图来表征目标存在的概率；2）产生类别无关的可能包含目标物体的矩形框。也正因为其不依靠于默认的锚点框，使得其对锚点框的分布更具鲁棒性。

研究方法

FoveaBox 是个端到端的网络，由提取特征的基础网络和带有双任务的子网络构成，双任务包括了对基础网络输出的每个空间位置进行分类以及对应区域矩形框坐标的预测。整体流程如下图所示：

基于特征金字塔（FPN）的基网络

FoveaBox 将特征金字塔每层特征上进行上述两个任务，最后将结果进行合并。

尺度的设定

首先明确最终目标是预测目标的轮廓，然而直接预测物体的轮廓难度过大，因为其尺度变化范围大，为了解决这个问题，FoveaBox 将连续尺度划分成多个区间，并将它们和特征金字塔中的不同层对应。

因此，特征金字塔中每层只负责预测某个特定尺度范围的矩形框，其中表示第 l 层特征的基础大小，而给定的区间范围由一个系数 η 控制，衡量方式如下二式所示：

其中值得注意的是某个尺寸的物体可能会被映射到金字塔不同层次，这与之前 FPN 的概念有差异（某尺寸只被映射到金字塔特定某层）。

构建目标Fovea

Fovea 其实就是依据 ground truth 在输出的特征上制定的正样本区域。给定一个 ground truth 的坐标 (X1,Y1,X2,Y2)，首先将这个矩形框映射到其对应的金字塔层，其缩放公式如下所示：

在其映射得到的坐标基础上添加缩放因子来制定正区域，也就是 Fovea（中心点不变，缩放尺寸），如下：

σ1 是缩放因子，处于正区域范围内的单元会在训练的时候被标上相应类别标签。而另外一个缩放因子 σ2 会被用在制定负区域，同样的计算方式（实验中采用的是 σ1=0.3,σ2=0.4）。与此同时，需要注意此时的正样本只占了一小部分，为了克服正负样本不均衡，在分类任务中采用了 Focal loss。

矩形框的预测

与 Faster R-CNN 不同的，矩形框偏移量的回归并不是只针对中心点而言，而是 Fovea 中的每一个 cell 的坐标映射回原始图像之后和对应的 ground truth 的偏移量，计算方式如下：

其中，z 为标准化因子使得输出空间映射到以 1 为中心的新空间。表示 ground truth 坐标，(x,y) 表示一个 cell 单元的坐标，即为网络需要拟合的偏移量。Fovea 依旧采用 Smooth L1 loss 作为矩形框回归预测的损失函数。

推理阶段

首先经过 0.05 的置信度阈值过滤掉一部分置信度过低的预测框，在每层选出置信度排名前 1000 的矩形框，接下来用 0.5 的非极大值抑制单独对每个类别进行操作，最后选出图片钟得分前 100 的矩形框。同时为了与基于锚点的目标检测方法进行对比，并没有在推理阶段采取软非极大值抑制和投票机制作为后处理的手段。

实验内容及分析

对比实验的选取对象的是带有稠密锚点框的 RetinaNet，实验表明带锚点框的 RetinaNet 增加 feature map 每个单元对应的 anchor 并不会对实验的提升有帮助，并且证实了某个特定的位置只对应一个锚点的回归预测相对稠密锚点的方式有提升。

这使得 FoveaBox 具有的优势是：输出空间缩小为原来的 1/A，其中 A 是每个位置的锚点个数；比起模棱两可的优化目标已有一个框的方式更加直接；FoveaBox 更灵活，无需提前设置锚点尺寸。具体结果如下两表所示：

为了进一步验证 FoveaBox 对矩形框尺寸分布更具鲁棒性，将验证集进行不同宽高比的拉伸，使得矩形框尺寸变化。实验结果表明 FoveaBox 对宽高比变化更具有鲁棒性。

背后的原因：基于锚点的方法只对预测为正样本的建议框进行回归预测，并且是只针对一定的宽高比，所以其学习到的拟合能力较弱，面对极端变化的情况无法处理。

而 FoveaBox 每个单元的矩形框只有一个且是任意比例，由此拟合能力更强，可以产生质量更高的区域建议，在宽高比极端的情况下依旧能处理。其实验结果如下图所示：

除此之外，FoveaBox 主要是针对矩形框尺寸更任意的目标有明显的改善，与其他主流的一阶段和二阶段对比结果如下：

总结

FoveaBox 提出了一种没有依靠锚点框的目标检测方法，直接预测每个空间位置所属类别，对潜在物体区域的单元进行矩形框的回归预测，因此不受先验锚点框尺寸的束缚，其拟合能力更强，对于长宽比变化较大较极端的物体更具优势。为打破基于锚点框的检测框架提供了新思路。

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论目标检测

相关数据

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

验证集技术

验证数据集是用于调整分类器超参数（即模型结构）的一组数据集，它有时也被称为开发集(dev set)。

来源：Wikipedia

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

目标检测技术

一般目标检测（generic object detection）的目标是根据大量预定义的类别在自然图像中确定目标实例的位置，这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法，并已经为一般目标检测领域带来了显著的突破性进展。

来源：机器之心