识别每个语义部分(如手臂、腿等)是人体解析中最基本、最重要的一部分。不仅如此,它还在许多高级应用领域中发挥了重要的作用,例如视频监控 [38]、人类行为分析 [10,22] 等。
在全卷积网络(FCN)[29] 的推动下,人们使用深度学习技术提取特征 [37,14],标注了大量的数据集 [24,11],并推进了图模型上的推理 [45,3],这些使得人体解析(语义部分分割)的研究在近期取得了巨大进展。然而,以前的方法只关注简化、有限场景下的单人解析任务(例如人体呈直立姿势的时尚图片 [41,8,18,23,6] 以及各种日常图像 [11]),而现实生活中的场景往往是单个图像中出现多个人类实例。这类单人解析任务极大阻碍了人体分析在其他更具挑战性的场景(例如:群体行为预测)中的应用。
本文试图解决更具挑战性的实例级人体解析任务,它不仅需要对各个身体部位或衣服进行分割,还需要将每个部分与一个人类实例相关联,如图 1 所示。除了单人解析任务也存在的困难(例如:各种外观 / 视点、自遮挡问题)之外,实例级人体解析还要面临一些更具挑战性的任务——不同图像中的人物实例数量差距巨大,而传统的单人解析流程无法处理这种问题:传统方法的预测空间有限,只能对固定数量的人体部分标签进行分类。
近期的研究 [16] 延续了「检测 - 解析」(parsing-by-detection)的流程 [12,21,7,31,13],该流程先定位实例边界框,再对每个边界框进行细粒度语义解析。然而,这种用于检测和分割的复杂流程是通过若干独立的目标和阶段来训练的,这可能导致粗定位和像素级部分分割的结果不一致。例如,分割模型可能会因为检测模型的缘故错误地在检测到的边界框外预测语义部分区域,因为它们的中间表征被拖向了不同的方向。
本研究从一个全新的角度重构实例级人体解析方法,即利用一个统一网络对两个连续的分割部分进行分组,包括部分级像素分组(part-level pixel-grouping)和实例级部分分组(instance-level part-grouping)。首先,部分级像素分组可以借助以单个像素为一个部分标签的语义部分分割任务得到解决,这个方法学习了类别特征。之后,给定一组独立的语义部分,实例级部分分组可以根据预测的实例感知边缘(instance-aware edge)确定所有部分到底属于哪个实例,其中由实例边缘分隔的部分将被分给不同的人物实例。这种联合优化语义部分分割和实例感知边缘检测的无检测统一网络被称为部分分组网络(Part Grouping Network,PGN),如图 4 所示。
此外,与其他 proposal-free 方法 [25,15,22] 通过几个独立的网络将实例对象分割任务分解为多个子任务并采用复杂的后处理不同的是,PGN 借助统一网络无缝地集成了部分分割和边缘检测模块,它首先学习共享表征,然后添加两个并行分支,分别处理语义部分分割和实例感知边缘检测。由于两个模块通过共享一致的分组目标而保持了相互之间的高度相关性,PGN 得以进一步整合了一个细化分支,利用互补的语境信息使两个目标相互受益。通过无缝地补救每个目标的误差,这种集成的细化方案能够很好地处理那些具有挑战性的案例。如图 2 所示,我们可能无法通过分割分支定位小孩,但是可以通过边缘分支成功检测到他的位置,或者使用细化算法来校正实例边界被错误标注的背景边缘。给定语义部分分割和实例边缘检测,一个有效的切割推断(cutting inference)可以通过联合扫描分割与边缘图对线段进行广度优先搜索,并利用这个结果生成实例级的人体解析结果。
此外,在本文的工作填补这一空白之前,没有可用于实例级人体解析研究的大规模数据集。本文引入了一个新的大型数据集 Crowd Instance-level Human Parsing(CIHP),包括 38280 个多人图像与实例级的 19 个语义部分的像素级标注。数据集经过精心标注,重点关注室外多人场景的语义理解,如图 1 所示。除此之外,本文还提出了一个公共服务器基准,用于自动反馈评估结果,以便进行公平对比。
本文的贡献:1)研究了更具挑战性的实例级人体解析,拓宽了人类解析的研究边界,使相关研究更好地应用到现实场景中。2)提出了一种新的部分分组网络(PGN),通过将其重新组合为两个可以相互完善的孪生分组任务(语义部分分割和实例边缘检测),在统一网络中解决多人人体解析问题。3)为实例级人体解析构建了一个新的大规模基准,并提供了详细的数据集分析。4)PGN 超越了以前的语义部分分割和边缘检测任务的方法,且在现有的 PASCAL-Person-Part [6] 和新的 CIHP 数据集上的表现均达到了当前最佳。
论文:Instance-level Human Parsing via Part Grouping Network
论文链接:https://arxiv.org/abs/1808.00157
摘要:由于缺乏足够的数据资源,以及仅通过单次扫描解析多个实例的技术难度,现实人体分析场景中的实例级人体解析仍未得到充分研究。几个相关的研究都遵循「检测 - 解析」的流程,该流程严重依赖单独训练的检测模型来定位实例,然后顺序地为每个实例执行人体解析。尽管如此,检测和解析的不同优化目标导致次优表征学习和最终结果中的误差累积。本研究首次尝试使用无检测的部分分组网络(PGN),以便只通过一次扫描就能有效地解析单个图像中的多个人类实例。PGN 将实例级人体解析重新定义为两个可以通过统一网络共同学习和相互完善的孪生子任务:1)将每个像素指定为人类部分(如面部、手臂)的语义部分分割;2)实例感知边缘检测,将语义部分划分给不同的人物实例。因此,共享中间表征不仅可以表征细粒度部分,还能推断每个部分属于哪个实例。最后,我们使用简单的实例划分就能获得最终结果。实验在 PASCAL-Person-Part 数据集上进行,PGN 优于所有之前的方法。此外,本文还展示了其在新收集的多人解析数据集 CIHP 上的优势,该数据集包含 38280 个不同图像,是迄今为止最大的数据集,帮助推动人体解析的进一步研究发展。
CIHP 基准以及源代码地址:http://sysu-hcp.net/lip/