随着无车人技术的不断进步,我们越来越能在路上见到各种进行路测的无车人。大量的人机交互在发生着。那么怎样才能实现更安全高效的人机交互呢?我们既不希望无车人太过鲁莽,也不希望它过于保守,我们希望它能够产生与人相似的行为,从而使得人机交互的过程更为顺利。如何才能做到这一点呢?在本文中,我们将设计一种方法使得无车人可以像人一样懂礼貌。
首先,容我先来介绍一下无人车的基本工作原理。通常,无人车通过Lidar、Radar、camera等感知系统来实时测量外部环境的状态,并基于当前或者历史状态对其他道路参与者(行人及由人驾驶的车辆)的行为进行预测,然后按照我们(工程师们)设定的奖励或者优化机制来规划一条安全、高效且舒服的路径。因此,无人车的行为决策取决于设定的奖励/优化机制。过去,我们更多的关注无人车自身的安全、高效和舒适性(我们称之为“自私型规划”),而忽视了另外一个重要的因素:人类社会的规范和人类决策的非理性。自私型规划忽视了无人车的行为对其他道路参与者的影响,从而容易产生不符合人类常识的行为决策,使得与其交互的其他道路参与者感到莫名其妙或者不舒服,进而作出一些不理性的行为。这一系列的结果都大大降低了自私型规划的安全性。
因此,针对“自私型规划”的各种问题,我们提出“礼貌型规划”方案:无人车的奖励/优化机制中不仅包含了自身的安全、高效和舒适性,而且考虑到无人车的行为决策对其他人造成的不便利。最终产生的路径是两者之间一个平衡的结果。这样的方案使得无车人可以:
与激进的驾驶员交互过程中变得保守;
与保守的驾驶员交互过程中变得高效;
下面,本文将以三个问题的方式展开解释“礼貌型规划”。
1. 如何定义“不便利”?
2. “礼貌型”规划有效果吗?
3. “礼貌型”规划真的符合真实的人类驾驶员的行为吗?
1. 如何定义“不便利”?
为了定义“不便利”,我们引入了非理性经济人的Prospect Theory模型。该模型指出,人类在做决策的时候并不是计算所有效能(utility)的绝对值,而是计算其相对于参考点(reference point )的相对值(framing effect):收益(gain)-损失(loss)。并且,损失的权重会比收益的权重更大。基于此,我们引入与无人车交互的人类驾驶员的两种效能:
参考效能:考虑以下三种情况
o I -- 如果没有无人车在场,人类驾驶员的最优效能
o II -- 如果无人车帮助人类驾驶员,人类驾驶员的最优效能
o III --如果无人车维持现有行为,人类驾驶员的最优效能
实际效能:无人车当前行为下,人类驾驶员的最优效能
因此,无车人当前的行为对人类驾驶员造成的“不便利”可以定义为其效能的降低:
不便利= max { 参考效能- 实际效能,0 }
无人车的“礼貌型规划”的优化机制也因此变为:
C(礼貌) = C(自私)*W(自私) + 不便利*W(礼貌)
其中:C 代表无车人的成本优化函数。C(礼貌) 和 C(自私) 分别是“礼貌型”规划和“自私型”规划的成本函数,W(礼貌) 和 W(自私) 是调节“自私”和“礼貌”程度的系数。无人车将产生(局部)最优的行为使得 C(礼貌) 达到(局部)最小。
2. “礼貌型”规划有效果吗?
以下所有图中,灰色代表“自私型”无人车,橘色代表“礼貌型”无人车,蓝色代表人类驾驶员。
a. 场景一:并道
图1
图2
可见,随着无人车越来越礼貌( W(礼貌) 从左向右变大),它并道时留给人类驾驶员的空间越来越大,甚至主动从后面完成并道(图2b)。
b. 场景二:左转
图3
对比“自私型”无人车(图3a),“礼貌型”无人车在左转时主动礼让直行车。
c. 场景三:T型路口右转
图4
在图4中,我们评价不同的参考效能对“礼貌型无人车行为的影响。(a) 使用参考效能III,无人车尽快穿过路口使得人类驾驶员可以完成右转 (b) 使用参考效能I/II,无人车减速让人类驾驶员先行通过。
3. “礼貌型”规划真的符合真实的人类驾驶员的行为吗?
为了证明“礼貌型“规划真的符合人类驾驶员的行为,我们引入Inverse Reinforcement Learning (IRL),并基于NGSIM的数据集设计了两组实验:
a. 使用IRL学习“自私型“规划的成本函数参数;
b. 使用IRL学习“礼貌型“规划的成本函数参数;
结果如下:
结果分析:
从学习结果看,我们发现“礼貌型”规划能够更好的解释数据集中人类驾驶员的行为。这说明,人类驾驶员也在遵守“礼貌型”规划的基本策略。
参考文献:Liting Sun, Wei Zhan, Masayoshi Tomizuka, Anca D. Dragan, “Courteous Autonomous Cars”, to appear IROS 2018, https://arxiv.org/abs/1808.02633.