2020/03/21 12:01

CVPR2020 | 阿里达摩院自动驾驶新成果，3D物体检测精度与速度的兼得

阿里巴巴达摩院在自动驾驶 3D 物体检测方面又有新成果发布。近日，计算机视觉顶会 CVPR 2020 接收论文结果发布，达摩院一篇名为《Structure Aware Single-Stage 3D Object Detection from Point Cloud》的论文入选。

该论文提出了一个通用、高性能的检测器，首次实现 3D 物体检测精度与速度的兼得，有效提升自动驾驶系统安全性能。目前，该检测器在 KITTI BEV 排行榜上排名第一。

3D 目标检测需输出物体类别及在三维空间中的长宽高、旋转角等信息

和普通 2D 图像识别应用不同，自动驾驶系统对精度和速度的要求更高，不仅需要快速识别周围环境的物体，还要对物体在三维空间中的位置做精准定位，但仅靠传感器和传统算法模型无法平衡视觉识别的精度和速度，因此，全新的检测器成为提升自动驾驶系统安全性的关键因素。

虽然，业界主流的单阶段检测器在检测速度上有不俗的表现，但其检测精度却差强人意。为此，达摩院提出了全新的思路，即将两阶段检测器中对特征进行细粒度刻画的思想移植到单阶段检测中。具体来说，达摩院在训练中利用一个辅助网络将单阶段检测器中的体素特征转化为点级特征，并施加一定的监督信号，同时在模型推理过程中辅助网络无需参与计算，因此，在保障速度的同时又提高了检测精度。

该论文团队表示，「检测器是自动驾驶系统的核心组件之一，但这一领域一直以来缺少创新和突破，此次我们提出的检测器融合了单阶段检测器和两阶段检测器的优势，因此同时实现了 3D 检测精读和速度的提升，未来检测器的创新研究还可以解决自动驾驶产业的更多难题。」

研究结果显示，该检测器在 KITTI BEV（bird`s eye view）排行榜上排名第一, 检测速度达到 25FPS，同时精度也超过其他的单阶段检测器。

KITTI BEV 排行榜，达摩院位居第一

据了解，该论文共有 5 位作者，第一作者为达摩院研究实习生 Chenhang He，另外四位作者也为达摩院科学家，包括达摩院高级研究员、IEEE Fellow 华先胜，达摩院高级研究员、香港理工大学电子计算学系讲座教授、IEEE Fellow 张磊，达摩院资深算法专家黄建强。

以下是论文一作对该论文做出的解读：

1. 背景

目标检测是计算机视觉领域的传统任务，与图像识别不同，目标检测不仅需要识别出图像上存在的物体，给出对应的类别，还需要将该物体通过 Bounding box 进行定位。根据目标检测需要输出结果的不同，一般将使用 RGB 图像进行目标检测，输出物体类别和在图像上 2D bounding box 的方式称为 2D 目标检测。而将使用 RGB 图像、RGB-D 深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为 3D 目标检测。

从点云数据进行 3D 目标检测是自动驾驶（AV）系统中的的关键组件。与仅从图像平面估计 2D 边界框的普通 2D 目标检测不同，AV 需要从现实世界估计更具信息量的 3D 边界框，以完成诸如路径规划和避免碰撞之类的高级任务。这激发了最近出现的 3D 目标检测方法，该方法应用卷积神经网络（CNN）处理来自高端 LiDAR 传感器的点云数据。

目前基于点云的 3D 物体检测主要有两种架构：

1) 单阶段检测器 (single-stage): 将点云编码成体素特征 (voxel feature), 并用 3D CNN 直接预测物体框, 速度快但是由于点云在 CNN 中被解构, 对物体的结构感知能力差, 所以精度略低.

2) 两阶段检测器 (two-stage): 首先用 PointNet 提取点级特征, 并利用候选区域池化点云 (Pooling from point cloud) 以获得精细特征. 通常能达到很高的精度但速度很慢.

2. 方法

目前业界主要以单阶段检测器为主，这样能保证检测器能高效地在实时系统上进行。我们提出的方案将两阶段检测器中对特征进行细粒度刻画的思想移植到单阶段检测中，通过在训练中利用一个辅助网络将单阶段检测器中的体素特征转化为点级特征，并施加一定的监督信号，从而使得卷积特征也具有结构感知能力，进而提高检测精度。而在做模型推断时，辅助网络并不参与计算（detached）, 进而保证了单阶段检测器的检测效率。另外我们提出一个工程上的改进，Part-sensitive Warping (PSWarp), 用于处理单阶段检测器中存在的「框-置信度-不匹配」问题。

主体网络

用于部署的检测器，即推断网络，由一个骨干网络和检测头组成。骨干网络用 3D 的稀疏网络实现，用于提取含有高语义的体素特征。检测头将体素特征压缩成鸟瞰图表示，并在上面运行 2D 全卷积网络来预测 3D 物体框。

辅助网络

在训练阶段，我们提出一个辅助网络来抽取骨干网络中间层的卷积特征，并将这些特征转化成点级特征 (point-wise feature)。在实现上，我们将卷积特征中的非零信号映射到原始的点云空间中，然后在每个点上进行插值，这样我们就能获取卷积特征的点级表示。令 {():j=0,…,M} 为卷积特征在空间中的表示, {:i=0,…,N} 为原始点云, 则卷积特征在原始点上的表示等于

辅助任务

我们提出两种基于点级特征的监督策略来帮助卷积特征获得很好的结构感知力，一个前景分割任务，一个中心点回归任务。

具体来说，相比于 PointNet 特征提取器 (a)，卷积网络中的卷积操作和下采样会造成点云结构的破坏（b）使得特征对物体的边界与内部结构不敏感。我们利用分割任务来保证部分卷积特征在下采样时不会被背景特征影响 (c)，从而加强对边界的感知。我们利用中心点回归任务来加强卷积特征对物体内部结构的感知能力 (d)，使得在少量点的情况下也能合理的推断出物体的潜在大小，形状。我们使用 focal loss 和 smooth-l1 对分割任务与中心回归任务分辨进行优化。

3. 工程上的改进

在单阶段检测中，feature map 和 anchor 的对齐问题是普遍存在的问题，这样会导致预测出来的边界框的定位质量与置信度不匹配，这会影响在后处理阶段（NMS）时，高置信度但低定位质量的框被保留，而定位质量高却置信度低的框被丢弃。在 two-stage 的目标检测算法中，RPN 提取 proposal，然后会在 feature map 上对应的的位置提取特征（roi-pooling 或者 roi-align），这个时候新的特征和对应的 proposal 是对齐的。我们提出了一个基于 PSRoIAlign 的改进，Part-sensitive Warping (PSWarp), 用来对预测框进行重打分。

如上图，我们首先修改最后的分类层以生成 K 个部分敏感的特征图，用 {X_k：k = 1,2，...，K} 表示，每个图都编码对象的特定部分的信息。例如，在 K = 4 的情况下，会生成 {左上，右上，左下，右下} 四个局部敏感的特征图。同时，我们将每个预测边界框划分为 K 个子窗口，然后选择每个子窗口的中心位置作为采样点。这样，我们可以生成 K 个采样网格 {S^k：k = 1,2，...，K}，每个采样网格都与该局部对应的特征图相关联。如图所示，我们利用采样器，用生成的采样网格在对应的局部敏感特征图上进行采样，生成对齐好的特征图。最终能反映置信度的特征图则是 K 个对齐好特征图的平均。

4. 效果

我们提出的方法 (黑色) 在 KITTI 数据库上的 PR Curve，其中实线为两阶段方法，虚线为单阶段方法。可以看到我们作为单阶段方法能够达到两阶段方法才能达到的精度

在 KITTI 鸟瞰 (BEV) 和 3D 测试集的效果。优点是在保持精度的同时，不增加额外的计算量，能达到 25FPS 的检测速度。

入门CVPR 20203D检测自动驾驶达摩院

相关数据

张磊人物

计算机视觉和图像分析讲座教授 IEEE研究员计算机系香港理工大学

来源：Zhang, L.

全卷积网络技术

全卷积网络最开始在论文 Fully Convolutional Networks for Semantic Segmentation（2015）中提出，它将传统卷积神经网络最后几个全连接层替换为卷积层。引入全卷积的意义在于它能实现密集型的预测，即在二维卷积下对图像实现像素级的分类，在一维卷积下对序列实现元素级的预测。

来源：机器之心

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

插值技术

数学的数值分析领域中，内插或称插值（英语：interpolation）是一种通过已知的、离散的数据点，在范围内推求新数据点的过程或方法。求解科学和工程的问题时，通常有许多数据点借由采样、实验等方法获得，这些数据可能代表了有限个数值函数，其中自变量的值。而根据这些数据，我们往往希望得到一个连续的函数（也就是曲线）；或者更密集的离散方程与已知数据互相吻合，这个过程叫做拟合。

来源：维基百科

路径规划技术

路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成，连接起点位置和终点位置的序列点或曲线被称为路径，构成路径的策略则被称为路径规划。路径规划在很多领域都具有广泛的应用，如机器人的自主无碰行动；无人机的避障突防飞行等。

目标检测技术

一般目标检测（generic object detection）的目标是根据大量预定义的类别在自然图像中确定目标实例的位置，这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法，并已经为一般目标检测领域带来了显著的突破性进展。

来源：机器之心