2018/08/12 15:23

中山大学 & 商汤提出部分分组网络 PGN，解决实例级人体解析难题

近日，中山大学和商汤的研究人员在 arXiv 上发表论文，提出一种新型网络——部分分组网络（PGN），该网络将实例级人体解析重新定义为两个可以通过统一网络共同学习和相互完善的孪生子任务：1）将每个像素指定为人类部分（如面部、手臂）的语义部分分割；2）实例感知边缘检测，将语义部分划分给不同的人物实例。该研究还提出了一个用于实例级人体解析的新型大规模数据集 CHIP，PGN 在现有的 PASCAL-Person-Part 和新的 CIHP 数据集上的性能均达到了当前最佳。

识别每个语义部分（如手臂、腿等）是人体解析中最基本、最重要的一部分。不仅如此，它还在许多高级应用领域中发挥了重要的作用，例如视频监控 [38]、人类行为分析 [10,22] 等。

在全卷积网络（FCN）[29] 的推动下，人们使用深度学习技术提取特征 [37,14]，标注了大量的数据集 [24,11]，并推进了图模型上的推理 [45,3]，这些使得人体解析（语义部分分割）的研究在近期取得了巨大进展。然而，以前的方法只关注简化、有限场景下的单人解析任务（例如人体呈直立姿势的时尚图片 [41,8,18,23,6] 以及各种日常图像 [11]），而现实生活中的场景往往是单个图像中出现多个人类实例。这类单人解析任务极大阻碍了人体分析在其他更具挑战性的场景（例如：群体行为预测）中的应用。

本文试图解决更具挑战性的实例级人体解析任务，它不仅需要对各个身体部位或衣服进行分割，还需要将每个部分与一个人类实例相关联，如图 1 所示。除了单人解析任务也存在的困难（例如：各种外观 / 视点、自遮挡问题）之外，实例级人体解析还要面临一些更具挑战性的任务——不同图像中的人物实例数量差距巨大，而传统的单人解析流程无法处理这种问题：传统方法的预测空间有限，只能对固定数量的人体部分标签进行分类。

图 1：大规模「多实例级人体解析（Crowd Instance-level Human Parsing，CIHP）」数据集，该数据集包含 38280 个经过精心标注的多人图像，它们内容各异且具备很高的复杂度。图像原图显示在第一行。语义部分分割的标注与实例级人体解析分别在第二和第三行。

近期的研究 [16] 延续了「检测 - 解析」（parsing-by-detection）的流程 [12,21,7,31,13]，该流程先定位实例边界框，再对每个边界框进行细粒度语义解析。然而，这种用于检测和分割的复杂流程是通过若干独立的目标和阶段来训练的，这可能导致粗定位和像素级部分分割的结果不一致。例如，分割模型可能会因为检测模型的缘故错误地在检测到的边界框外预测语义部分区域，因为它们的中间表征被拖向了不同的方向。

本研究从一个全新的角度重构实例级人体解析方法，即利用一个统一网络对两个连续的分割部分进行分组，包括部分级像素分组（part-level pixel-grouping）和实例级部分分组（instance-level part-grouping）。首先，部分级像素分组可以借助以单个像素为一个部分标签的语义部分分割任务得到解决，这个方法学习了类别特征。之后，给定一组独立的语义部分，实例级部分分组可以根据预测的实例感知边缘（instance-aware edge）确定所有部分到底属于哪个实例，其中由实例边缘分隔的部分将被分给不同的人物实例。这种联合优化语义部分分割和实例感知边缘检测的无检测统一网络被称为部分分组网络（Part Grouping Network，PGN），如图 4 所示。

图 4：部分分组网络（PGN）图示。给定输入图像，使用 ResNet-101 提取共享特征图。然后添加两个分支以捕捉部分区域和人体边界区域，同时生成部分分数图和边缘分数图。最后，执行细化分支（refinement branch），通过整合部分分割和人体边界区域来细化预测的分割图和边缘图。

此外，与其他 proposal-free 方法 [25,15,22] 通过几个独立的网络将实例对象分割任务分解为多个子任务并采用复杂的后处理不同的是，PGN 借助统一网络无缝地集成了部分分割和边缘检测模块，它首先学习共享表征，然后添加两个并行分支，分别处理语义部分分割和实例感知边缘检测。由于两个模块通过共享一致的分组目标而保持了相互之间的高度相关性，PGN 得以进一步整合了一个细化分支，利用互补的语境信息使两个目标相互受益。通过无缝地补救每个目标的误差，这种集成的细化方案能够很好地处理那些具有挑战性的案例。如图 2 所示，我们可能无法通过分割分支定位小孩，但是可以通过边缘分支成功检测到他的位置，或者使用细化算法来校正实例边界被错误标注的背景边缘。给定语义部分分割和实例边缘检测，一个有效的切割推断（cutting inference）可以通过联合扫描分割与边缘图对线段进行广度优先搜索，并利用这个结果生成实例级的人体解析结果。

图 2：PGN 中的细化方案可以完美地修正复杂图像的部分和边缘误差。第一行中，分割分支无法定位小型对象（如左侧角落处的人和右下角处的手），但是边缘分支能够成功检测到它们。第二行中，背景边缘被错误标注。但是，PGN 中的细化分支纠正了这些错误。

此外，在本文的工作填补这一空白之前，没有可用于实例级人体解析研究的大规模数据集。本文引入了一个新的大型数据集 Crowd Instance-level Human Parsing（CIHP），包括 38280 个多人图像与实例级的 19 个语义部分的像素级标注。数据集经过精心标注，重点关注室外多人场景的语义理解，如图 1 所示。除此之外，本文还提出了一个公共服务器基准，用于自动反馈评估结果，以便进行公平对比。

本文的贡献：1）研究了更具挑战性的实例级人体解析，拓宽了人类解析的研究边界，使相关研究更好地应用到现实场景中。2）提出了一种新的部分分组网络（PGN），通过将其重新组合为两个可以相互完善的孪生分组任务（语义部分分割和实例边缘检测），在统一网络中解决多人人体解析问题。3）为实例级人体解析构建了一个新的大规模基准，并提供了详细的数据集分析。4）PGN 超越了以前的语义部分分割和边缘检测任务的方法，且在现有的 PASCAL-Person-Part [6] 和新的 CIHP 数据集上的表现均达到了当前最佳。

论文：Instance-level Human Parsing via Part Grouping Network

论文链接：https://arxiv.org/abs/1808.00157

摘要：由于缺乏足够的数据资源，以及仅通过单次扫描解析多个实例的技术难度，现实人体分析场景中的实例级人体解析仍未得到充分研究。几个相关的研究都遵循「检测 - 解析」的流程，该流程严重依赖单独训练的检测模型来定位实例，然后顺序地为每个实例执行人体解析。尽管如此，检测和解析的不同优化目标导致次优表征学习和最终结果中的误差累积。本研究首次尝试使用无检测的部分分组网络（PGN），以便只通过一次扫描就能有效地解析单个图像中的多个人类实例。PGN 将实例级人体解析重新定义为两个可以通过统一网络共同学习和相互完善的孪生子任务：1）将每个像素指定为人类部分（如面部、手臂）的语义部分分割；2）实例感知边缘检测，将语义部分划分给不同的人物实例。因此，共享中间表征不仅可以表征细粒度部分，还能推断每个部分属于哪个实例。最后，我们使用简单的实例划分就能获得最终结果。实验在 PASCAL-Person-Part 数据集上进行，PGN 优于所有之前的方法。此外，本文还展示了其在新收集的多人解析数据集 CIHP 上的优势，该数据集包含 38280 个不同图像，是迄今为止最大的数据集，帮助推动人体解析的进一步研究发展。

CIHP 基准以及源代码地址：http://sysu-hcp.net/lip/

图 5：使用本文方法处理实例级人体解析任务的流程图。首先由 PGN 处理，同时扫描部分分割图和边缘图以创建水平和垂直分割线。就像连通图问题一样，广度优先搜索可用于将线段分组成区域。此外，实例边界附近的小区域被合并到它们的邻近区域，包括更大的面积和多个部分标签。结合实例图和部分分割图，该流程最终输出预测准确的实例级人体分析结果，无需来自目标检测的任何 proposal。

理论计算机视觉ECCV 2018商汤科技中山大学

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

广度优先搜索技术

广度优先搜索算法（英语：Breadth-First-Search，缩写为BFS），又译作宽度优先搜索，或横向优先搜索，是一种图形搜索算法。简单的说，BFS是从根节点开始，沿着树的宽度遍历树的节点。如果所有节点均被访问，则算法中止。广度优先搜索的实现一般采用open-closed表。

来源：维基百科

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

重构技术

代码重构（英语：Code refactoring）指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。软件重构需要借助工具完成，重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中，重构需要单元测试来支持。

来源：维基百科

表征学习技术

在机器学习领域，表征学习（或特征学习）是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前，机器学习研究人员需要利用手动特征工程（manual feature learning）等技术从原始数据的领域知识（domain knowledge）建立特征，然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效，但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点，它使得机器不仅能学习到数据的特征，并能利用这些特征来完成一个具体的任务。

来源：Wikipedia

边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题，边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括（i）深度上的不连续、（ii）表面方向不连续、（iii）物质属性变化和（iv）场景照明变化。边缘检测是图像处理和计算机视觉中，尤其是特征检测中的一个研究领域。

来源：维基百科