Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

CPU上跑到 33 FPS 的简单轻量级人体姿态估计网络

姿态估计算法中,微软开发的 SimpleBaseline 是精度高而又轻量级的典范,昨天一篇论文Simple and Lightweight Human Pose Estimation,在该架构基础上做了少许改进,取得了更快的速度和更小的模型Size。

论文作者信息:

作者均来自南京大学。

该文发明的轻量级姿态估计网络LPN架构:


与SimpleBaseline类似,LPN由一个主干网络和几个上采样层组成,不同的是,作者重新设计了网络中在下采样阶段的基础组件即轻量级Bottleneck模块,并同时在上采样阶段也选择了轻量级的形式。

改进的Bottleneck模块

如下图:

(a)为标准Bottleneck模块,(b)为改进的Bottleneck模块,将标准卷积替换为深度可分离卷积,同时expansion 参数从4设为1,同时为了使网络能够更好的建模全局上下文信息,作者又进一步在Bottleneck中添加了GC block(global context block),如(c),(d)为GC block结构示意图。

另外,作者发明了一种迭代式的训练方法,在不使用ImageNet数据集上预训练的分类网络时,可以有效改进最终精度。

在训练过程中,每一阶段选择不同的学习率,如下图:

另外,作者提出了一种在推断阶段对heatmap进行Soft-Argmax以获得更精确位置信息的方法B-Soft-Argmax。

实验结果

作者在COCO姿态估计数据集上进行了实验。

在COCO验证集上的结果:

在COCO test-dev集上的结果:


可见该文提出的方法,精度与SimpleBaseline相当,相比于SOTA 方法HRNet精度要低一些,但在参数量与FLOPs上仅为后者的1/30左右。


下图为LPN与SOTA方法精度与FPS的比较:


结果是在 Intel i7-8700K CPU上运行得出的,可见该文提出的 LPN 处于一骑绝尘的位置,LPN-50 可以达到 33 FPS,大约是SimpleBaseline152和HRNet-W32的推理速度的3倍。而大型网络LPN-152 AP可以达到 71 ,仍有 23 FPS。

总之,该文提出了一种轻量级、高效的姿态估计网络架构,更具有实用价值。

目前还未发现该文有开源代码。

论文地址:

https://arxiv.org/pdf/1911.10346v1.pdf

我爱计算机视觉
我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播计算机视觉与机器学习技术的业内最佳实践。

理论SOTA模型训练人体姿态估计
51
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

推荐文章
自己复现作者的论文: https://github.com/sailyung/human-pose-estimation