本文介绍作者在IV2018上的获奖论文“Probabilistic Prediction of Vehicle Semantic Intention and Motion”。
1. 什么是预测及预测的重要性
“预测”这个词对我们来说并不陌生,而且我们经常会做各种各样的预测。比如我们会预测明天或是未来会发生什么;预测哪支球队能夺得世界杯冠军;当然在开车的时候我们也会下意识地预测其它车辆的行为,避免可能发生的危险。但是人类所能捕获到的外部信息是有限的,当遇到一些不那么遵纪守法的司机,或者某辆车在我们的盲区时,预测他们的行为便变得不那么容易了。同时,司机的注意力也很难做到长时间的集中,有时甚至会被一些外部因素所分散(比如手机等)。而交通事故往往就发生在这些时刻。
对于未来的无人车,能准确地预测出路面车辆将会发生的行为是尤为重要的。目前的许多研究仅通过考虑特定场景来确定驾驶意图的数量。但是不在同场景下,车辆会有不同可能的驾驶意图。比如在高速场景下,可行的驾驶意图通常分为三种:直行,左变道,和右变道;而在十字路口,可行的驾驶意图除了以上列举的三种,还包括左转弯,右转弯,和直行通过路口。所以,我们需要设计一种方法,使其能够适用于不同场景的意图预测。
自动驾驶汽车配有各类传感器,比如微波雷达,激光雷达等。这使得它们具备远超人类的检测感知能力,并且可以做到不间断,全方位地检测周围环境。所以,我们希望利用这一点,让自动驾驶汽车拥有比人类更好的预测的能力,使其拥有安全、舒适、且具有合作性的驾驶能力。
2. 我们想预测什么?
当然,想要让自动驾驶汽车预测路面汽车的驾驶行为,我们首要明白人类开车时候会做出什么样的行为。事实上,我们开车时通常在做的一件事就是在不停寻找合适的“插入区域”。可以通过下面这个动图来更好地理解:
在这个图中,假设我们在驾驶着这辆红色轿车,想要到达星号的位置。随着车辆的位置变化,我们的目标区域(红色阴影)也在发生着变化。在这个过程中,我们做了三件事/完成三个小目标:左变道,跟车,左转弯。我们经历着不同的场景,不同的道路结构和不同的驾驶行为,但是有一件事情是不变的:我们一直在寻找一个可以插入的空隙。以上,我们总结出以下两点:
人类在驾驶的时候为了完成一个个小的目标,会不断寻找并插入到不同的行驶区域中;
预测人类驾驶行为可被简化为预测车辆会插入到哪个区域。
当然,除了预测可能插入的区域,我们希望自动驾驶汽车能够做到更多:
预测多久能够完成这个过程(时间信息);
预测具体会插入到这个区域的哪个位置(位置信息)。
所以我们把需要解决的预测问题用语义的方式描述成:“预测车辆最有可能插入到哪个区域里?何时?何处?”
3. 用什么方法实现预测?
我们提出一个Semantic based Intention and Motion Prediction(SIMP) 的方法。翻译过来就是基于语义意图和运动的预测方法。这是一个基于混合密度网络(Mixture Density Network)和深度神经网络(Deep Neural Network)的方法。每一个“插入区域”都被指定了一个二维的高斯混合模型(Gaussian Mixture Model),具体公式如下:
下角标a代表其中一个插入区域a;x是输入,包括当前从环境中提取的一些状态特征,y是输出,包括以上提到的时间和位置信息。整体框架的输出包括每一个二维高斯混合模型需要的参数(P),以及每一个可以插入的区域的权重(w)。
SIMP框架图如下:
我们把损失函数定义为:
如此定义的损失函数不仅可以使真正插入的区域拥有最大的权重,同时也使得该区域内的正确的时间和位置信息拥有最高的预测概率。
4. 真实场景预测
简单介绍完了方法,我们来看看它在真实的道路场景中的效果如何吧!我们选用了NGSIM的数据集,这是一个开源的数据集,里面包括真实高速路段中的车辆信息。我们选取了其中17179个frame作为训练和测试的数据。
在高速场景中我们定义了如下信息以便于特征提取和结果评估。黄色的车是想要预测的车辆,几辆蓝色的车是在这三条道路上距离预测车辆最近的三辆车。青色的圆圈便是所有可能插入的区域,在这里我们称其为动态的插入区域因为这些区域的位置和大小一直在随着时间而变化,并不固定。通过以上的定义方法,当预测车辆旁边的某条车道不存在或者车道上没有车时,一样可以使用我们提出的方法。
5. 实验结果及分析
我们选取了以下三种不同的测试情况来看看预测的结果:
场景1:参考车辆的突然改变
场景2:典型的车道线变换
场景3:改变主意
我们对于第二种场景提取了几个典型的frame,并画出了预测的时间信息曲线如下。可以看到,我们的时间预测结果与真实值的差距在变道前3秒都在0.3s以内。
我们分别把我们的方法与经典的分类方法(支持向量机SVM)和回归方法(分位数回归树QRF)分别进行了对比,结果如下:
这里,“True Positive”代表正确预测出向左或是向右变道,“False Positive”代表错误地预测了变道的方向。通过ROC对比图,可看出我们的方法的准确率超过了传统的SVM方法。除此之外,我们还对比了其他的数值,F1-Score表示分类能力的好坏,Avg. Predict Time表示可以在变道前多久能够做出准确预测(数值越大越好)。
以上两张图分别从时间和位置两方面将我们的方法和QRF方法的预测结果进行了比较。可以看出,对于两种车辆运动的预测,使用我们方法得出的RMSE误差都小于使用QRF方法得到的结果。由于使用我们方法得到的误差以及一个和两个标准差之间的差距在不断减小,说明我们预测的高斯分布的最高峰也越来越接近真正的值。
具体方法细节可参见论文:
[1] Yeping Hu, Wei Zhan, and Masayoshi Tomizuka, “Probabilistic prediction of vehicle semantic intention and motion,” in 2018 IEEE Intelligent Vehicles Symposium (IV), Jun. 2017.