2017/02/17 13:17

谷歌提交新论文提出认知型地图构建器和规划器：同时应对视觉导航的几何和语义任务

论文题目：Cognitive Mapping and Planning for Visual Navigation

摘要

我们介绍了一种用于在全新的环境中导航的神经架构。我们提出的架构可以学习根据第一人称视角构建地图（mapping）和在环境中规划（planning）到达目的地的动作序列。这个认知型地图构建器和规划器（CMP/Cognitive Mapper and Planner）基于两个关键思想：a）一个用于地图构建和规划的统一联合架构，这样使得该地图构建可由规划者的需求来驱动；b）一个可以在关于世界的观察集合不完整时能够进行规划的空间记忆。CMP 能构建一个自上而下的关于世界的可信度地图（belief map）并应用一个可微神经网络规划器来在每一个时间步骤产生下一个动作。这种关于世界的积累的可信度使得该代理（agent）能够跟踪其环境中已经访问过的区域。我们的实验表明该 CMP 的表现超过了反应策略（reactive strategies）和标准的基于记忆的架构，并且可以在全新的环境中获得良好的表现。此外，我们还表明 CMP 也能够实现特定语义的目标，比如「go to a chair」。

问题陈述

在全新环境中的视觉导航。我们研究了几何任务（其中任务根据相对于机器人当前位置的偏移来确定）和语义任务（其中任务根据实现一个特定的目标类别来确定）。

方法

我们的学习过的导航网络由一个地图构建器（mapper）和一个规划器（planner）模块构成。其中地图构建器写入对应于一个环境的自我中心地图的隐记忆（latent memory），而规划器则使用这个记忆来输出导航动作。这个地图并没有受到明确的监督，而是从学习过程中自然地融合得到的。

地图构建器模块可以处理来自机器人的第一人称图像并将其观察整合到隐记忆中，这个隐记忆对应于一个对于环境的顶视角的自我中心地图。这个地图构建的操作并没有收到明确的监督——该地图构建器可以自由地向记忆写入任何对规划器最有用的信息。除了填充障碍物之外，该地图构建器还能在地图中存储置信度值（confidence values），这允许其通过利用已学到的模式做出关于地图中未被观察的部分的概率预测。

unnamed (1).jpg

这种分层规划器利用了地图构建器输出的关于世界的以自我为中心的多尺度可信度（egocentric multi-scale belief），并使用了以卷积表示的值迭代和以通道（channel）方式的最大池化，以输出一个策略。该规划器是可训练和可微分的，并会将梯度反向传播给地图构建器。该规划器可在多种规模的问题上工作（规模 0 是最好的规模），这能实现高效的规划。

unnamed (2).jpg

结果

实验是在由 3D 真实扫描构成的静态环境中执行的。我们测算了到目标的平均距离、到目标的 75% 分位的距离和成功率，作为我们提出的方法（CMP）的步骤的函数，此外还测算了一个反应基线（reactive baseline）和一个基于 LSTM 的基线。

unnamed (3).jpg

在这个视频中，我们展示了我们提出的算法的一些成功和失败的导航案例。注意视频中所给出的结果，该代理使用了第一人称的深度图像作为输入，而我们为了让可视化更容易而使用了 RGB 图像。

视频

理论谷歌理论论文CVPR 2017神经网络架构导航计算机视觉