2020/05/12 16:13

CVPR 2020｜遮挡也能识别？地平线提出用时序信息提升行人检测准确度

在致力于实现边缘 AI 全球领导者的征程上，地平线始终坚持“研”以致用，通过赋能产业，让每个人都能够享受技术进步的成果。在这一过程中，地平线也希望通过分享最新研究成果，与 AI 领域的同行者一起前行。有鉴于此，我们推出了#地平线 CVPR 2020 系列论文分享#，以下为本系列首篇导读——

行人检测作为计算机视觉领域最基本的主题之一，多年来被广泛研究。尽管最先进的行人检测器已在无遮挡行人上取得了超过 90% 的准确率，但在严重遮挡行人检测上依然无法达到满意的效果。究其根源，主要存在以下两个难点：

1.严重遮挡的行人框大部分为背景，检测器难以将其与背景类别区分；

2.给定一个遮挡行人框，检测器无法得到可见区域的信息；

针对这两大难题，地平线与 Buffalo 学院提出 Tube Feature Aggregation Network（TFAN）新方法，即利用时序信息来辅助当前帧的遮挡行人检测，目前该方法已在 Caltech 和 NightOwls 两个数据集取得了业界领先的准确率。

相关论文<Temporal-Context Enhanced Detection of Heavily Occluded Pedestrians>已被收录于 CVPR 2020 ，以下为论文导读——

核心思路

利用时序信息辅助当前帧遮挡行人检测

目前大部分行人检测工作都集中于静态图像检测，但在实际车路环境中大部分目标都处于运动状态。针对严重遮挡行人的复杂场景，单帧图像难以提供足够有效的信息。为了优化遮挡场景下行人的识别，地平线团队提出通过相邻帧寻找无遮挡或少遮挡目标，对当前图像中的遮挡行人识别进行辅助检测。

实验新方法

Proposal tube 解决严重遮挡行人检测

如下图，给定一个视频序列，首先对每帧图像提取特征并使用 RPN（Region Proposal Network）网络生成 proposal 框。从当前帧的某个 proposal 框出发，依次在相邻帧的空间邻域内寻找最相似的proposal框并连接成 proposal tube。

在相邻的第 i 帧和第 i-1 帧之间，具体两个 proposal 的匹配准则可根据以下公式：

其中 s() 是用于计算两个 proposal 特征的余弦相似度，而 l() 是用于计算两个 proposal 在尺寸大小及空间位置上的相似程度（具体公式可见论文）。X 和 b 分别表示 proposal 特征和 proposal 边界框，字母的上标表示 proposal 编号，Q_ki-1 表示在第 i-1 帧搜索区域内的 proposal 框的编号集合。假设视频序列共有 13 帧，可以得到一个具有 13 个 proposal 框的 tube 以及他们对应的 proposal 特征。这样的做法可以有效的将时序上前后存在的无遮挡行人连接到 proposal tube 当中。随后，将这些 proposal 特征以加权求和的方式融合到当前帧的 proposal 特征中来，具体的融合权重可根据以下公式求得：

其中，τ 代表时序上前后各有 τ 帧，λ 为常数，t 表示当前帧。公式 5 的做法可以避免无关的特征被错误融合进来。当背景框被连接到了行人的 tube 当中，他们的特征相似度较低，所以最后产生的融合权重较小，从而防止了行人特征被背景特征所污染，反之亦然。最后，我们将融合后的特征送入分类器，从而更好的识别严重遮挡的行人。

TDEM模块有效避免行人框与背景框交叉

为了避免连接 tube 过程中发生错误的偏移，比如行人框连到了背景框，或背景框连到了行人框。针对这种情况，研究团队提出 TDEM（Temporally Discriminative Embedding Module）模块用于将原 proposal 特征映射到一个 embedding 空间，然后利用 embedding 特征来计算两个 proposal 之间的特征相似度。在这个 embedding 空间我们可利用损失函数来进行监督，使行人的 embedding 与前后帧背景的 embedding 相互排斥与前后帧行人的embedding相互吸引。具体的损失函数由 triplet loss 实现如下：

其中 eⁿ,e^p,e_t^k_t^*分别代表前后帧背景，行人和当前帧行人的 embedding 特征。根据实验发现 TDEM 模块可以有效的避免行人框与背景框错误的相连（参见原文表 3 及图 5）。

利用 PRM 模块解决融合权重较少的问题

即使通过以上的设计能够使得当前帧遮挡行人连接上前后帧未遮挡的行人，依然又一个亟待解决的难题：融合权重。由下图(a)可见，因为遮挡行人的特征充斥大量背景，所以遮挡行人的特征和无遮挡行人的特征相似度较低，产生的融合权重较小。因此即便找到了未遮挡行人，也很难有效地将其利用。

为了解决此问题，研究团队提出了 PRM（Part-based Relation Module）模块。在 PRM 模块中，首先预测当前帧行人的可见区域位置。然后，在比较两个行人框特征的相似度时，只会计算在这个可见区域内的相似度。如下图(a)右，当只比较两个行人的上半身相似度时，我们会发现他们其实是同一个人，由此产生的融合权重会较高。图 7 显示了 PRM 的可视化结果，我们发现 PRM 模块计算的相似度会比直接使用全身特征计算的相似度更高。

实验结果

TFAN 有效增强检测器的识别能力

在 Caltech 数据集上的结果如下：

注：R表示Reasonable少量遮挡及无遮挡的结果，HO表示Heavily Occlusion严重遮挡的结果，R+HO表示综合结果。

可视化结果如下：

利用时序信息提升遮挡行人检测准确度的方法基本如上，感兴趣的同学可以点击【原文阅读】或通过以下链接阅读论文。https://cse.buffalo.edu/~jsyuan/papers/2020/TFAN.pdf

关于 CVPR

CVPR 是 IEEE 一年一度的国际计算机视觉与模式识别会议，是世界三大顶级的计算机视觉会议之一（另外两个是 ICCV 和 ECCV）。CVPR 的主要探讨方向是计算机视觉与模式识别技术，每年会在世界范围内收录相关领域优秀论文，是引领产业发展趋势的前沿学术阵地。

入门图像识别CVPR 2020计算机视觉地平线

相关技术

自动驾驶技术物联网技术

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

图像提取技术

图像提取包括图像的特征检测和特征提取过程。特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。特征被检测后它可以从图像中被提取出来。这个过程可能需要许多图像处理的计算机。其结果被称为特征描述或者特征向量。低层次的特征提取方法包括：边缘检测、角检测、区域检测、脊检测等，还有曲度检测以及运动检测。高层次的特征提取方法包括：1.固定形状匹配方法如阈值、模板匹配和霍夫变换等；2.灵活变形分析方法。进一步特征提取与降维有关，常用的降维技术有主成分分析法、独立成分分析法、等距特征映射等。

来源：Nixon, M. S., & Aguado, A. S. (2012). Feature extraction & image processing for computer vision. Academic Press.

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

行人检测技术

行人检测是从摄像机中检测行人的任务。

来源：Papers With Code

合合信息机构

http://www.zhaodao.info