Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

CV君编辑

精度高、模型小、速度快!梯形DenseNets结构实现语义分割新高度!

今天上午arXiv出现一篇非常值得参考的语义分割文章《Efficient Ladder-style DenseNets for Semantic Segmentation of Large Images》,来自克罗地亚的研究人员提出了一种基于DenseNets构建的形状像梯子的语义分割架构,其不仅精度达到目前最高(超越DeepLabV3+),而且参数量少,计算速度快,可谓语义分割领域的新突破。

以下是作者信息:



作者来自克罗地亚的萨格勒布大学。

提出问题

作者指出,在深度学习领域图像分类任务验证的有效网络结构,极大促进了计算机视觉其他方向的研究。

比如大放异彩的ResNet深度残差网络,成名于ImageNet图像分类任务,其影响力却席卷整个神经网络的所有应用领域。

但由于语义分割的计算量和参数量往往都很大,在现有硬件使用这些新出的网络结构进行新算法训练时,显存的大小限制了更好地发挥其潜力,尤其是对那些大图像比如百万像素图像的语义分割

作者详细比较了ResNets与DenseNets(此部分可参考论文原文),认为在拥有相近的网络表达能力的ResNets与DenseNets网络架构中,DenseNets所需要的参数和计算量都相对较小。对于语义分割任务,应以其为基础模块。

网络架构

下图是作者提出算法的网络架构(请点击查看大图):

图中DB代表这Dense Blocks,TD为transition layers,TU为transition-up blocks,f为输出特征图(后面的数字为特征图个数),输出特征图上的x4、x8...x32为下采样倍数,SPP为spatial pyramid pooling module。

可以看出,其最明显的特征是有两个数据路径。

上面的为下采样数据路径,特征图不断缩小。下面为上采样数据路径,并在此进行数据融合

整个结构宛如梯子,故称梯形风格的(Ladder-style) DenseNets 。

实验结果

作者在主流的语义分割数据库上与基于ResNet的相同结构算法进行了比较,也与其他state-of-the-art进行了比较,验证了该算法精度达到最高的同时,速度快一个数量级,参数也是高精度语义分割算法中最小的(是在Cityscapes数据集上唯一的IoU上80的实时语义分割算法)。

下图为在Cityscapes数据集验证集上使用与ResNet Blocks的算法的比较,可见在使用Dense Blocks时不仅参数少,计算速度快,而且精度也更高。

下图为该算法的两个最好模型与state-of-the-art语义分割算法在 Cityscapes 验证集与测试集的结果比较。

可见该文算法精度最高,计算量也接近最低水平!!


下图上述结果的散点图,该文提出的算法LDN是目前唯一的在Cityscapes数据集上IoU精度超过80的实时语义分割算法!

下图是在CamVid 测试集上与基于ResNet结构的算法结果比较,LDN121依然是精度高、模型小、速度快。

下图是与CamVid测试集上的其他state-of-the-art算法的结果比较,精度依旧是最优秀的。

下图是在Pascal VOC 2012 验证集与测试集上的与其他state-of-the-art算法相比的分割结果,依然取得了精度的新突破。

分割结果示例:

论文地址:

https://arxiv.org/abs/1905.05661v1

我爱计算机视觉
我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播计算机视觉与机器学习技术的业内最佳实践。

理论语义分割
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度残差网络技术

残差网络是为了解决深度神经网络(DNN)隐藏层过多时的网络退化问题而提出。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

推荐文章
暂无评论
暂无评论~