2019/04/20 11:50

百度无人车实现全球首个基于深度学习的激光点云自定位技术

数名来自百度智能驾驶事业群组（Baidu IDG）的研究员和工程师们实现了全球首个基于深度学习的激光点云自定位技术，不同于传统的人工设计的复杂算法，该系统首度基于深度学习网络实现了高精度厘米级的自定位效果，取得了重要的技术突破。该系统的相关技术论文收录在今年 6 月份在美国洛杉矶长滩市举行的国际顶会 CVPR 2019。

作为人工智能最「硬核」的落地方向之一，自动驾驶在学术界和工业界引起了广泛关注。自动驾驶的实现不仅将带来汽车产品形态的根本性变化、颠覆传统汽车技术体系和产业格局，还将引发消费者出行和生活方式、信息技术和通信方式、信息和交通基础设施的变革。然而与高回报成正比的则是实现难度。完整的自动驾驶系统包含了自定位（Localization）、自动驾驶地图（AD Map）、障碍物感知（Perception）、决策和规划（Decision and Planning）、控制（Control）等模块。

高精度自定位是实现自动驾驶的必要技术之一，目前主流的 L4 及 L5 级别的自动驾驶汽车高度依赖一套高精度、高可靠性、强场景适应能力的自定位系统。这套系统为自动驾驶系统提供了高精度厘米级的定位能力，配合上自动驾驶地图，无人车就可以根据自身处于环境中的位置来读取预存在地图中的环境信息，这些预存在地图里的数据包含了包括红绿灯、人行横道、车道线、道路边界、停车位等各种无人车所需要的环境信息，借助这些信息，无人车巧妙地规避了需要实现一个高准确度的在线环境信息感知系统的难题，大幅降低无人车的技术难度，变不可能为可能。

同时，作为无人车的核心模块之一，定位系统一旦出现问题，会造成无人车跑偏撞路肩等灾难性事故。在此论文中，来自百度的技术专家们提出了一套全新的基于深度学习的激光点云自定位技术方案，实现了厘米级的定位精度，同时有着更好地对环境变化的适应能力。

链接：https://songshiyu01.github.io/pdf/L3Net_W.Lu_Y.Zhou_S.Song_CVPR2019.pdf

摘要：百度提出了一种基于学习的点云定位技术，该技术对传统的定位方法进行拆解，使用深度学习网络来取代传统的各个环节和步骤。该方案是全球范围内，业界首次通过使用直接作用于激光点云的深度学习网络来解决自动驾驶的自定位问题。

为了验证算法的有效性，同时百度计划在 Apollo 平台开放一组总计约 380km 的数据集，该数据集包含了制图、训练、测试三个子集，涵盖了城市道路，园区内部道路以及高速等多种场景，地图和测试集之间的最长时间跨度达一年。在该数据集上，百度验证了其算法相对于传统方法的优势。目前，该研究论文已被计算机视觉领域顶会 CVPR 2019 收录。

引言

众所周知，深度学习技术近年来在各个人工智能领域都取得了令人瞩目的成绩，战胜人类围棋冠军棋手的 AlphaGo 更是令普通大众都深刻感受到了 AI 技术突破带来的威力。然而，我们同时发现深度学习目前可以良好解决的问题，主要集中在需要理解、分析、判断等人类根据经验定义的问题。例如，在计算机视觉领域，深度学习在解决图像分割、图像分类、物体检测等问题都取得了非常良好的效果。但是，对于另一大类重要的问题，例如和测量测距、三维重建等相关的几何问题，虽有个别工作取得了一定进展，但总体来说深度学习尚未在相关领域取得决定性的突破。无人车自定位问题则是这类问题的一个典型代表，目前无论从高校到行业巨头，各路玩家的无人车自定位技术也都还没有成功应用深度学习技术的先例。然而，历史的经验告诉我们，一旦基于学习的技术在解决某个人工智能问题领域取得突破性的进展，这种技术演进的洪流通常会以势不可挡之势在各个性能指标维度迅速大幅超越传统人工设计的算法，成为新的行业技术标准。

定位作为自动驾驶的基础模块之一直是研究的热点问题，现有传统的激光点云定位技术如图 1 上半部分所示，其中包含包含了特征提取、特征匹配和时序优化等模块，整个算法的输入包括实时在线激光点云，定位地图以及来自惯性传感器的初始预测的定位位置和姿态，最后的输出则是定位算法优化之后的位姿结果。整体方案的思路和人类认路的方法其实是高度近似的，我们平时也是通过一些典型的地标建筑物等实现对自身位置的判断。不同的是，无人车的定位结果需要厘米级的位置精度以及亚角度级的姿态精度来保证无人车可准确地从自动驾驶地图中提取必要的信息。尽管上述方案已经取得了当前最佳的定位效果，但是这类人工设计的算法进行特征提取和匹配时，对环境的变化非常敏感。在不断动态变化的环境中无法最智能地捕捉环境中不变的信息（例如，地标、路牌等）从而实现对自身位置的高精度高鲁棒性的估计，取决于环境变化的剧烈程度在实际应用中需要经常对定位地图进行更新，这会带来成本的上升。

百度提出的方案如图 1 下半部分所示，通过将传统方法中的各个流程使用不同类型的网络结构来进行改造，实现了开创性的基于深度学习技术的无人车激光自定位技术：L3-Net。

图 1 传统方法与 L3-Net 技术流程对比，L3-Net 使用 PointNet 网络实现特征提取，使用 3D CNNs 网络进行特征匹配和优化，最终使用 RNNs 网络完成时序上的平滑。

根据论文内容，百度提出的技术方案的先进性集中体现在以下几个方面：

提出了行业内首个基于深度学习的自动驾驶自定位技术解决方案，可以准确的估计车辆的位置和姿态，取得了厘米级精度的定位效果。
使用不同的网络结构拆解取代传统激光点云定位的技术流程并将其串联起来统一训练，使网络能够以端到端的方式完成在线激光点云定位任务。
即将发布一组包含城市道路、园区道路、高速等复杂场景的全长 380km 的通用数据集用于同类算法测试，更进一步充实百度 Apollo 开放平台的开放内容。

方法

百度提出的基于深度学习的激光定位系统需要一个预先建立的激光点云定位地图、在线激光点云以及来惯性传感器的预测位姿作为输入。其中预建的激光点云定位地图是通过离线制图算法对多次采集的同一区域的点云数据进行融合，并使用点云识别算法剔除动态地物得到。在线点云是由自动驾驶车辆上安装的激光雷达设备在行驶过程中采集获得，而预测位姿则由上一帧定位结果加上惯性传感器或者车辆运动模型估计的增量运动来进行递推。总的来说，这个定位框架通过最小化在线点云和地图的匹配距离，优化预测位姿从而获得定位结果的。一般来说，无人车需要定位模块输出六个自由度位姿，包括三个坐标轴（x, y, z）方向上的平移（∆x,∆y,∆z）以及三个坐标轴上的旋转（俯仰角，翻滚角和航向角），但是由于惯性传感器通常可以提供相对准确的俯仰和翻滚角信息，而当（x,y）估计准确时，高程 z 通常可以从地图中获取。因此，在目前主流的自定位系统设计中一般只估计 2D 水平平移（∆x,∆y）和航向角，L3-Net 也采取了类似的设计。

图 2 百度提出的基于学习的激光自定位网络架构 L3-Net。该网络通过两个阶段进行训练，第一阶段训练只包含了黑色箭头部分，包括关键点选择、特征提取以及基于 3D CNNs 的特征匹配；第二阶段训练包含了青色箭头的部分，这一阶段训练包含了用于时序平滑的 RNNs 网络。

具体来说，百度提出的 L3-Net 算法流程如图 2 所示。对于每一帧在线点云，需要找到一系列的关键点，并以关键点为中心的收集局部点云块从中提取特征描述子。关键点的提取需要同时考虑局部和全局的几何结构关系。L3-Net 首先利用点云的密度找到了一些候选点。接着对每个候选点使用经典点云 3D 结构特征估计其线性和散乱性的概率，最终综合考虑候选点之间的距离及其结构特性选取出关键点。对于每个关键点，该方法收集了其局部范围内的点云信息，再通过 mini-PointNet 网络结构得到特征描述子。其中 PointNet 是 2017 年 CVPR 收录的直接作用于无序点云的深度学习网络结构，L3-Net 这里使用的 mini-PointNet 是其简化版本，由一个多层感知机（Multi-Layer Perceptron, MLP) 和一个 Max-Pooling 层组成，这也是直接作用于无序点云的网络结构应用于高精度激光点云定位/匹配任务的首次尝试。

在获得了关键点的特征描述子后，需要对 2D 水平位置（∆x,∆y）和航向角结果进行求解，这等价于求解预测位姿和真值在水平位置和航向角上的偏移量。针对这个问题，L3-Net 采用了搜索的方法，对预测位姿为中心的（∆x,∆y,∆yaw）三维状态空间进行离散化，取其中一定范围内的定位状态构成集合。对于在线点云中的一个关键点，通过计算集合中每种定位状态下在线点云与地图的匹配效果可以获得的 cost volume。接着使用 3D CNNs 对 cost volume 进行正则化操作，这样做是为了抑制其中的异常值，提升匹配效果。正则化后，L3-Net 将所有关键点的 cost volume 相加并通过 softmax 层得到（∆x,∆y,∆yaw）定位空间的 probability volume，进而估计出（∆x,∆y,∆yaw）的定位结果。

在得到了每帧点云定位结果后，L3-Net 通过 LSTM 网络对车辆的运动模型进行建模，利用定位的时序关系提升定位结果，实验表明获得了更加平滑和精确的定位结果。

图 3 基于深度学习的 L3-Net 激光点云定位系统与其他系统对比的结果。

图 4 L3-Net 定位网络各阶段输出化的可视化效果。Cost Volume 栏中每一列表示一个关键点的匹配情况，其中每一行表示一种航向角状态，每个图片表示水平位置的 cost 分布。在把所有关键点的 cost volume 合并到一起后，可以看到匹配响应显著增强。最终估计的定位结果（0.538m, 0.993m, 1.001 度）和其对应的来自数据集的定位真值（0.524m, 0.994m, 1.044 度）在最右栏展示。

总结

针对自动驾驶中的自定位问题，百度提出了一套基于深度学习的激光点云自定位算法。百度使用不同类型的网络结构对传统方法中的各功能模块进行替代，并在一个包含多种场景路况和大尺度时间跨度的数据集上验证了算法效果，实现了厘米级的定位精度。该数据集包含了城市道路、园区道路和高速等多种富有挑战的路况场景，数据总里程达 380km，即将在百度 Apollo 平台开放。

理论百度CVPR 2019

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

激光雷达技术

自动驾驶车辆传感器的一种，采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性，这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题，同时，它的机械结构非常复杂。

来源：机器之心

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看，图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程，即把属于同一区域的像索赋予相同的编号。

来源：百度百科

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

多层感知机技术

感知机（Perceptron）一般只有一个输入层与一个输出层，导致了学习能力有限而只能解决线性可分问题。多层感知机（Multilayer Perceptron）是一类前馈（人工）神经网络及感知机的延伸，它至少由三层功能神经元（functional neuron）组成（输入层，隐层，输出层），每层神经元与下一层神经元全互连，神经元之间不存在同层连接或跨层连接，其中隐层或隐含层（hidden layer）介于输入层与输出层之间的，主要通过非线性的函数复合对信号进行逐步加工，特征提取以及表示学习。多层感知机的强大学习能力在于，虽然训练数据没有指明每层的功能，但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定，学习算法只需通过模型训练决定网络参数（连接权重与阈值），即可最好地实现对于目标函数的近似，故也被称为函数的泛逼近器（universal function approximator）。

来源：Deep Learning Book

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

自动驾驶汽车技术

自动驾驶汽车，又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人，是自动化载具的一种，具有传统汽车的运输能力。作为自动化载具，自动驾驶汽车不需要人为操作即能感测其环境及导航。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

定位技术技术

通常是指机器人领域的定位技术，see SLAM for details

来源：artint.info

图像分类技术

图像分类，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

来源：百度百科

百度智能云机构

百度是全球最大的中文搜索引擎，是一家互联网综合信息服务公司，更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村，公司创始人李彦宏拥有“超链分析”技术专利，也使中国成为美国、俄罗斯、和韩国之外，全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com