来自萨里大学的研究者引入了注意力机制,将自动驾驶的 2D 图像转换为鸟瞰图,使得模型的识别准确率提升了 15%,并斩获了 ICRA 2022 的杰出论文奖。
(1)用一组 1D 序列 - 序列的转换从一幅图像中生成一个 BEV 图; (2)构建了一个受限制的数据高效的 Transformer 网络,具备空间感知能力; (3)公式和语言领域单调注意力的结合表明,对于精确的映射来说,知道图像中一个点下面是什么比知道它上面是什么更重要,尽管两者都使用会导致最佳性能; (4)展示了轴向注意力如何通过提供时间意识来提高性能,并在三个大规模数据集上展示了最新的结果。