2019/05/10 10:27

CVPR | 智能体张量融合，一种保持空间结构信息的轨迹预测方法

导读

本文是计算机视觉领域国际顶级会议CVPR 2019入选论文《Multi Agent Tensor Fusion for Contextual Trajectory Prediction》的解读。

该论文由MIT支持的自动驾驶初创公司ISEE Inc，北京大学信息科学技术学院计算机科学技术系/数字视频编解码技术国家工程实验室教授、前沿计算研究中心副主任王亦洲老师课题组，UCLA，以及MIT CSAIL合作共同完成。王亦洲老师课题组的学生赵天洋为论文第一作者。

该论文主要提出了一种基于深度学习的车辆和行人轨迹预测方法，提出了一个可以保持空间结构信息的多智能体张量融合网络，在机动车驾驶和行人轨迹数据集中对模型的性能进行了验证。

简介

人类驾驶员不断地预测其附近的车辆和行人未来的行为，从而避免与其他车辆和行人冲撞，以规划安全迅捷的行车路线。自动驾驶汽车也必须预测其他人和车的轨迹，以便在未来的社会互动发生之前主动规划，而不是被动地在意外发生后才作出反应。这样做可以尽量避免不安全的行为，如急刹车、急并道、急转弯等。从根本上来说，轨迹预测让自动驾驶车辆得以推断他们将遇到的未来可能情况，以评估特定规划相对于这些情况的风险，从而得以选择最小化该风险的行车规划。这为自动驾驶系统增加了一层可解释性，对于调试和验证至关重要。

轨迹预测问题之所以具有挑战性，是因为智能体的动作是随机的，并且取决于他们的目的地、与其他智能体的社会交互、以及其所在场景的物理约束。预测还必须对不同场景中不断变动的智能体数量和类型具有泛化性。基于神经网络的预测算法往往很难编码类似的信息，因为标准的神经网络架构只接受固定的输入、输出和参数维度；而对于这类预测任务，这些参数维度会因场景而异。之前的论文或利用面向智能体（agent-centric）的方法进行轨迹预测，例如 Social LSTM [1]，Social GAN [2]；或利用面向空间结构（spatial-centric）的编码方式解决这个问题，例如 Chauffeur Net [3]。面向智能体的编码在多个智能体的特征向量上运行聚合函数，而面向空间结构的方法则直接在鸟瞰视角的场景表示图上进行运算。

而多智能体张量融合（Multi-Agent Tensor Fusion, MATF）则提出了一种创新的多智能体张量融合编码器-解码器（Encoder-Decoder）网络架构。该架构结合了面向智能体和面向空间结构的轨迹预测方法的长处，通过端到端训练学习表示和推理有关社会互动和场景物理约束的所有相关信息。图1展示了MATF的核心张量MAT的构造，该张量在空间上将场景的特征编码与场景中每个智能体的过去轨迹的特征编码向量对齐，保持了静态场景以及多智能体的空间位置关系。接下来，通过全卷积网络（Fully Convolutional Layers）构造出融合的多智能体张量编码（见下一个小节）。这种编码方式一方面可以像面向空间结构的方法那样很自然地保持多智能体张量中的所有智能体和静态场景的空间结构以捕捉空间信息，另一方面也可以像面向智能体的方法那样敏感捕捉多智能体间的微妙社会互动。

MAT编码是一个鸟瞰视角的静态场景和动态多智能体的特征图（Feature Map），包括多智能体编码通道（Multi-Agent Encoding Channels）（上）和静态场景编码通道（Scene Context Encoding Channels）（下）。单智能体长短时记忆网络（Single Agent LSTM）编码器输出的多智能个体特征向量（红色）在空间上根据这些智能体的坐标对齐，构造出多智能体编码通道。多智能体编码通道与静态场景编码通道（场景编码全卷积网络的输出特征图）对齐，以保持智能体与场景间的空间结构。

MAT紧接着将融合了社会互动和场景物理制约的MAT编码结果解码，以同时预测场景中所有智能体的未来轨迹。现实世界中人的行为不是确定性的，智能体可以在同一个场景中做出不同的行为，MATF使用条件生成对抗训练（Conditional GAN）来捕获预测轨迹的这种不确定性。

MATF对新提出的模型在驾驶数据集和行人人群数据集上进行了实验验证。该论文报告了来自以下数据集的结果：公开的NGSIM驾驶数据集，斯坦福无人机行人数据集（Stanford Drone dataset），ETH-UCY人群数据集，以及最近收集的暂未公开的马萨诸塞州驾驶数据集。文章汇报了定量和定性实验结果，显示了模型每个部分的贡献。与领域最先进论文的定量比较表明所提出的方法在高速公路驾驶和行人轨迹预测方面都有着最好的表现。

网络架构

多智能体张量融合（MATF）的网络架构简图如下所示：

该网络的输入是在过去时间段内的所有智能体的轨迹，以及鸟瞰视角下的静态场景图像。每个智能体的过去轨迹和静态场景图像分别通过循环（Single-Agent LSTM Encoders）和卷积编码流独立编码。编码后的多智能体向量和静态场景特征图在空间上对齐以构造出多智能体张量。例如，图中3-D黑框（下方）显示的是橙色智能体周围的多智能体张量切片。

接下来，结构类似U-Net的全卷积网络（Convolutional Operator: Multi-Agent Tensor Fusion）作用在构造出的多智能体张量上，用以推断社会交互和空间物理约束，同时始终保持空间结构和空间局部性特征，该全卷积网络最终输出融合的多智能体张量（上方）。每个融合的智能体向量从该张量切片得出，包含了推理加工过的相应智能体的社会互动信息、自身历史轨迹信息、以及其周围的场景物理约束信息。值得指出的是，因为MATF架构运行共享卷积运算，所以在同一次正向传播中可以计算得出的所有智能体的相应融合向量。例如，实心蓝框（上方）所表示的智能体融合向量融合了来自卷积层感受野内的该智能体附近的所有智能体和场景特征的综合推断信息。

MATF在此之后将这些融合的特征向量作为残差（Residual）加到相应智能体的原始编码向量上，以获得最终智能体编码向量。这些向量最终将被循环神经网络解码器（Single-Agent LSTM Decoders）独立地解码为网络对这些智能体的未来的轨迹的预测结果。MATF整个架构是完全可微的，并且支持端到端的训练。

驾驶数据集实验结果样例

马萨诸塞州驾驶数据集的定性实验结果样例如上所示。每辆车的过去轨迹以不同的颜色显示，其后连接的是网络对这些车未来轨迹的预测的采样。正确结果（Ground Truth）的轨迹以黑色显示，车道中心以灰色显示。

（a）一个涉及五辆车的复杂情景；MATF准确地预测了所有车的轨迹和速度分布；

（b）MATF正确地预测了红色车辆将完成换道；

（c）MATF捕捉到红色车辆是否将驶入高速公路出口的不确定性。

（d）当紫色车辆通过高速公路出口后，MATF预测它将不会退出。

（e）在这里，MATF无法预测精确的真实未来轨迹；然而，一小部分采样轨迹成功预测到了红色车辆将持续变道。

行人数据集实验结果样例

斯坦福无人机数据集的定性实验结果样例如上所示。从左到右分别是MATF多智能体-场景推断模型，MATF多智能体-无场景推断模型，和LSTM基准模型的预测结果，所有用来预测的模型都是确定性模型。蓝线显示的是过去的轨迹，红色是真实的未来轨迹，绿色的是三个模型分别预测的未来轨迹。MATF可以通过一个正向传播同时预测该图所示的所有的智能体的未来的轨迹。绿色的预测轨迹越接近红色的真实未来轨迹，预测就越准确。MATF多智能体-场景推断模型成功预测了：

（1）两个人或自行车从顶部进入环形交叉口，并将向左驶出；

（2）环形交叉路口左上方路径的一位行人正在转弯向左移动到图像的顶部；

（3）一个人在环形交叉路口的右上方建筑物门口减速；

（4）在一个有趣的失败案例中，环形交叉路口右上方的人向右转，向图像顶部移动；该模型成功预测了此次转弯，但失败在无法预测转弯的急缓程度。

MATF多智能体-场景推断模型正确预测了这些和其他各种场景的轨迹情形，其中一些情形也被MATF多智能体-无场景推断模型近似地预测了出来，但大多数情形都没有被基准的LSTM模型预测出来。

参考文献：

[1] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2016.

[2] A. Gupta, J. Johnson, L. Fei Fei, S. Savarese, and A. Alahi. Social gan: Socially acceptable trajectories with generative adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018.

[3] M. Bansal, A. Krizhevsky, and A. S. Ogale. Chauffeurnet: Learning to drive by imitating the best and synthesizing the worst. CoRR, abs/1812.03079, 2018.

北京大学前沿计算研究中心

北京大学前沿计算研究中心主导/参与的相关科研成果发布。

理论深度学习轨迹预测CVPR 2019

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

全卷积网络技术

全卷积网络最开始在论文 Fully Convolutional Networks for Semantic Segmentation（2015）中提出，它将传统卷积神经网络最后几个全连接层替换为卷积层。引入全卷积的意义在于它能实现密集型的预测，即在二维卷积下对图像实现像素级的分类，在一维卷积下对序列实现元素级的预测。

来源：机器之心

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

自动驾驶汽车技术

自动驾驶汽车，又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人，是自动化载具的一种，具有传统汽车的运输能力。作为自动化载具，自动驾驶汽车不需要人为操作即能感测其环境及导航。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在维空间内，有个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。称为该张量的秩或阶（与矩阵的秩和阶均无关系）。在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达，记作标量的数组，但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中，表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了，它们都是二阶张量，对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

对抗训练技术

对抗训练涉及两个模型的联合训练：一个模型是生成器，学习生成假样本，目标是骗过另一个模型；这另一个模型是判别器，通过对比真实数据学习判别生成器生成样本的真伪，目标是不要被骗。一般而言，两者的目标函数是相反的。

来源：机器之心

无人机技术

无人机（Uncrewed vehicle、Unmanned vehicle、Drone）或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

来源：维基百科

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

来源：wiki