语义分割 -应用于静态2D图像,视频甚至3D或体积数据 - 是计算机视觉领域的关键问题之一。纵观全局,语义分割是为完整场景理解铺平道路的高级任务之一。场景理解作为核心计算机视觉问题的重要性突出表现在越来越多的应用程序需要通过从图像推断知识。其中一些应用包括自动驾驶,人机交互,计算机摄影,图像搜索引擎和增强现实等等。
为了正确理解现代深度学习架构如何处理语义分割,重要的是要知道它不是一个孤立的领域,而是从粗略推理到精细推理的自然步骤。我们可以认为语义分割最初源于分类任务——对整个输入进行预测,即,预测哪个是图像中的对象。随着技术的发展,定位或检测成为细粒度推理的下一步,即不仅提供类,还提供关于这些类的空间位置的附加信息,例如质心或边界框。
显然语义分割,是实现细粒度推理所必需的步骤,其目标是:进行预测、推断每个像素的标签;这样,每个像素都被划入一个类别。下图给出了一个上述演变的例子。即,从粗粒度到细粒度推理的对象识别或场景理解的演变:分类,检测或定位,语义分割和实例分割。
因此,归根结底像素标签问题可以抽象为以下问题:
找到一种方法将标签空间L = {l_1,l_2,...,l_k}中的标签分配给一组随机变量X = {x_1,x_2,...,x_N}中的每个元素。每个标签l代表不同的类别或对象,例如飞机,汽车,交通标志或背景。该标签空间具有k种可能的状态,这些状态通常扩展到k + 1并将l_0视为背景或空类。通常,X是W×H = N像素的2D图像x。然而,该组随机变量当然也可以扩展到任何维度,例如体积数据或高光谱图像。
[图片及描述来源:Garcia-Garcia, A.; Orts-Escolano, S.; Oprea, S.; Villena-Martinez, V.; Garcia-Rodriguez, J. (2017). A Review on Deep Learning Techniques Applied to Semantic Segmentation. arXiv:1704.06857.]
发展历史
描述
2015年Jonathan Long, Evan Shelhamer, Trevor Darrell训练了一个端到端,像素到像素的CNN,超过了语义分割当时的技术水平。他们推荐构建“完全卷积”网络,接收任意大小的输入并通过有效的推理和学习产生相应大小的输出。基于此观点,他们将AlexNet,VGG网络和GoogLeNet调整为完全卷积网络,并通过微调到分段任务来转移他们学习的表示。然后,他们定义了一种架构将来自深层粗糙层的语义信息与来自浅层精细层的外观信息相结合,以生成准确而详细的分段。他们的完全卷积网络在当时实现了PASCAL VOC的最先进分割(相对改进率为20%,2012年平均IU为62.2%)。
同年,Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla同样借鉴了VGG来进行语义分割,不过他们的方法是将VGG与decoder结合,称为SegNet。该核心可训练分段引擎包括编码器网络,相应的解码器网络,其后是像素分类层。解码器网络的作用是将低分辨率编码器特征映射映射到用于像素分类的全输入分辨率特征映射。
2016年,Liang-Chieh Chen等人使用上采样滤波器突出显示卷积,作为密集预测任务中的强大工具。该方法允许明确地控制在深度卷积神经网络中计算特征响应的分辨率。它还允许有效地扩大滤波器的视野以结合更大的上下文而不增加参数的数量或计算量。其次,他们提出了空间金字塔池(ASPP)来强大地分割多个尺度的对象。 ASPP使用多个采样率和有效视场的滤波器探测进入的卷积特征层,从而捕获多个尺度的对象和图像上下文。最后,通过结合DCNN和概率图形模型的方法,他们改进了对象边界的定位。 由于DCNN中通常部署的最大池和下采样的组合对定位精度有影响,他们通过将最终DCNN层的响应与完全连接的条件随机场(CRF)相结合来克服这个问题,CRF在定性和定量方面都有所提高,以提高定位性能。
2019年,何恺明等研究者设计了单个网络来同时解决语义和实例分割两个任务。他们提出的方法通过使用共享的特征金字塔网络 (FPN) 主干,给 Mask R-CNN(流行的实例分割方法)添加了语义分割分支。令人惊讶的是,这个简单的基线不仅对实例分割有效,而且还产生了一种轻量级的、性能最佳的语义分割方法。作者对这种带有 Feature Pyramid Networks (FPN) 的 Mask R-CNN(称之为全景 FPN)最小扩展版本进行了详细研究,发现对两项任务来说,它都是鲁棒又准确的基线。由于这种方法概念简单且有效,作者希望该方法可以作为强大的基线,助力未来的全景分割。
同年,斯坦福大学李飞飞组的研究者提出了 Auto-DeepLab,他们开发出与分层架构搜索空间完全匹配的离散架构的连续松弛,显著提高架构搜索的效率,降低算力需求。在文章中他们展示了该方法在较难的 Cityscapes、PASCAL VOC 2012 和 ADE20K 数据集上的效果。在不经任何 ImageNet 预训练的情况下,提出的专用于语义图像分割的架构获得了当时最优性能。
主要事件
年份 | 事件 | 相关论文/Reference |
2015 | Jonathan Long, Evan Shelhamer, Trevor Darrell训练了一个端到端,像素到像素的CNN,超过了语义分割当时的技术水平 | Long, J.; Shelhamer, E.; Darrell, T. (2015). Fully convolutional networks for semantic segmentation. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 3431–3440. |
2015 | Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla同样借鉴了VGG来进行语义分割,不过他们的方法是将VGG与decoder结合,称为SegNet | Badrinarayanan, V.; Kendall, A.; Cipolla, R. (2015). Segnet: A deep convolutional encoder-decoder architecture for image segmentation. arXiv:1511.00561. |
2016 | Liang-Chieh Chen等人使用上采样滤波器突出显示卷积,作为密集预测任务中的强大工具 | Chen, L.-C.; Papandreou, G.; Kokkinos, I.; Murphy, K.; Yuille, A. L. (2016). Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. arXiv:1606.00915. |
2019 | 何恺明等研究者设计了单个网络来同时解决语义和实例分割两个任务 | Kirillov, A.; Girshick, R.; He, K.; Dollár, P. (2019). Panoptic Feature Pyramid Networks. arXiv:1901.02446v1. |
2019 | 斯坦福大学李飞飞组的研究者提出了 Auto-DeepLab | Liu, C.; Chen, L.-C,; Schroff, F.; Adam, H.; Hua, W.; Yuille, A.; Fei-Fei, L. (2019). Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation. arXiv:1901.02985v1. |
发展分析
瓶颈
使用图形卷积网络(GCN)进行点云分割是一个未解决的挑战。由于其无序和非结构化特性,除非采用某种离散化过程来构建CNN,否则不能应用诸如CNN的传统架构。
此外,由于神经网络是一个发展非常快的研究领域,新研究的产生速度远远大于技术评论的产生速度,这使得追踪语义分割方面的进展并评判研究成果变得非常困难。
未来发展方向
一个发展方向是数据集的建立,特别是3D数据集和序列数据集。另外,如何训练模型利用上下文知识是一个很重要的方向。除此之外从模型表现来说,提高模型运行速度,降低内存需求,也是需要改进的问题。
Contriibutor: Yuanyuan Li