上海交大和厦门大学联合发布大规模驾驶策略学习数据集DBNet

近日，厦门大学 SCSC 实验室李军教授团队与上海交大 MVIG 实验室卢策吾教授团队联合发布大规模驾驶行为数据集 DBNet（DB 为 driving behavior 的缩写），为无人驾驶学术研究提供训练数据。

据了解，该数据集基于研究者被 CVPR 2018 录用的论文《DBNet: A Large-Scale Dataset for Driving Behavior Learning》。

研究介绍说，目前主要的无人驾驶学术研究数据集（如 KITTI [1,2]、Cityscape [3]、BDD100K [4]）大多是为研究无人驾驶环境感知如道路、行人、路牌的分类识别而设置的，而 DBNet 是专为研究驾驶行为的策略学习而设置的。DBNet 数据集记录了视频、激光雷达点云，以及对应的资深驾驶员（驾龄超过 10 年）的真实驾驶行为。DBNet 和当前主要无人驾驶学术数据集比较如下：

此外，DBNet 的数据量大小 1.61T, 供下载的是压缩后约 500G 的文件。这种数据规模约为 KITTI 的 10 倍，能为学习资深驾驶员的驾驶模型提供训练数据，用于评测模型预测的驾驶行为和资深驾驶员真实驾驶行为的差距。在 2015 年英伟达的研究员提出了一种端到端（end-to-end）的方法 [5], 但是一直缺乏一个有效的大规模数据集。DBNet 正是填补了这一空白。

如果在大量数据上，验证模型预测的驾驶行为和资深驾驶员的真实驾驶行为一致，则可以认为机器大概学会了驾驶。当然，在面对同一个场景正确驾驶行为是多解的，数据集中只是标注众多正确解之一，但是实现自动驾驶只需找到一个正确解。

这一技术途径的另一优点是，基于原始数据实现端对端驾驶行为判断。数据的产生只需要人们在驾驶的时候保留驾驶行为（方向盘、速度）与输入（视频、点云等），无需标注（车、人、道路），非常易于扩大数据规模。而且，也能从中学习各地的驾驶行为，比如北京和上海的驾驶行为测量可以使用不同模型。学习出来的模型可以和其他驾驶策略（比如，规则决策）一起融合提供高质量驾驶策略。

论文：DBNet: A Large-Scale Dataset for Driving Behavior Learning

论文链接：http://www.dbehavior.net/data/egpaper_release.pdf
数据集官网：www.dbehavior.net
源代码地址：https://github.com/driving-behavior/DBNet

摘要：学习自动驾驶策略是计算机视觉领域最具挑战也最有前途的任务之一。大部分研究人员认为，未来演讲和应用应该结合摄像头、视频记录仪和激光扫描器来综合掌握实时交通的语义理解。然而，由于缺乏包含精确激光雷达数据的基准，当前方法只能从大规模视频中学习。在此论文中，我们首次提出了驾驶行为网络（DBNet），提供了由 Veodyne 雷达扫描的大规模、高质量点云，行车记录仪拍摄的视频和标准的驾驶行为。大量的实验表明，附加的深度信息能够帮助网络决定驾驶策略。

参考文献

[1] A. Geiger, P. Lenz, and R. Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In Conference on Computer Vision and Pattern Recognition (CVPR), 2012.

[2] A. Geiger, P. Lenz, C. Stiller, and R. Urtasun. Vision meets robotics: The kitti dataset. International Journal of Robotics Research (IJRR), 2013.

[3] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016.

[4] H. Xu, Y. Gao, F. Yu, and T. Darrell. End-to-end learning of driving models from large-scale video datasets. In 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017.

[5] M. Bojarski, D.D. Testa, D. Dworakowski, B. Firner, B. Flepp, P. Goyal, L.D. Jackel, M. Monfort, U. Muller, J. Zhang, X. Zhang, J. Zhao, K. Zieba, 2016. End to end learning for self-driving cars, arXiv:1604.07316.

理论计算机视觉数据集视频识别

相关数据

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

机器人技术技术

机器人学（Robotics）研究的是「机器人的设计、制造、运作和应用，以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。机器人可以分成两大类：固定机器人和移动机器人。固定机器人通常被用于工业生产（比如用于装配线）。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器；另外还有能够实现感知能力的软件，比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成，这也是人工智能领域最早的终极目标之一。

来源：机器之心

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科