清华等机构提出基于内部一致性的行人检索方法，实现当前最优

利用部分级特征进行行人图像描述提供了细粒度的信息，已在近期文献中被证明对于人物检索很有用。相对于外部线索方法，清华大学、悉尼大学和德克萨斯大学的研究者采用内部一致性假设，提出新的基线网络和精炼部分池化方法，实现了更好的人物检索性能，并超越了当前最佳结果。

行人检索又叫行人重识别（person re-identification，re-ID），即基于给定行人，从大型数据库中检索特定相关人行道的图像。目前，深度学习方法主导该领域，性能超过人工检索者 [40]。深度学习得到的表征提供高度判断力，尤其是该表征是从深度学习得到的部分特征聚合而来时。在 re-ID 基准上最新的当前最优性能是使用 part-informed 深层特征获得的 [35, 27, 37]。

图 1：多个行人检索深度部分模型的分区策略。（a）到（e）：GLAD [31]、PDC [27]、DPL [35]、Hydra-plus [22] 和 PAR [37] 的分区部分，分别截选自对应论文。（f）：本论文提出的方法使用了一种统一的分区方式，然后对每个条状框进行精炼。PAR [37] 和本论文的方法都实施了「软」分区，但是二者有很大区别。

学习判别性部分特征的先决条件是对这些部分进行准确定位。近期的 SOTA 方法的分区策略有所不同，可以分为两大类。第一类 [38, 27, 31] 利用外部线索，如利用人体姿势估计最近进展的帮助 [23, 32, 15, 25, 2]。它们依赖于外部人体姿势估计数据集和复杂的姿势估计器。姿势估计和行人检索之间的底层数据集偏差是对行人图像进行完美语义分区的一大障碍。另一类 [35, 37, 22] 不使用语义部分的线索。它们不需要进行部分标注，但其准确率与第一类相差无几。部分分区策略已在图 1 中列出。与学习部分级深度特征的进步相反，本论文研究者重新思考构成良好对齐的部分的机制。语义分区或许能够提供良好对齐的稳定线索，但是可能出现噪声姿势检测。本论文从另一个角度出发，把每一部分的一致性作为重点，研究者认为这是空间对齐的关键因素。然后，本研究的目标是，给定一些粗糙分区的部分，精炼并强化部分内部的一致性。具体来说，本论文做出了以下贡献：

首先我们提出了一个名为基于部分的卷积基线（PCB）网络，它在卷积层上进行统一的分区，并借此学习部分级的特征。但这种方法并不会明确对图像进行分区，PCB 输入整张图像并输出卷积特征。作为分类网络，PCB 的架构是非常简洁的，在只是在主干网络上做一点修改。训练过程同样也是非常标准的，不需要过多花俏的技巧。研究者表示卷积描述器比常用的全连接（FC）描述器有更高的判别能力。在 Market-1501 数据集中，网络性能从 85.3% 的 rank-1 准确率和 68.5% 的 mAP 提升到 92.3% (+7.0%) 的 rank-1 准确率和 77.4% (+8.9%) 的 mAP，超过了很多当前最优方法。

其次，研究者提出一种适应性池化方法来精炼统一的分区。他们考虑到每个部位的信息应该是一致的，但观察到在同一划分下，每个部分都存在异常值。这些异常值实际上可能更接近于其它部分的信息，它们也就表明了内部的不一致性。因此，研究者通过重新定位这些异常值到最相近的分区部分而精炼了统一分区，这样就能加强内部一致性了。图 1（f）展示了经过精炼后的部分的示例。通过本文提出的精炼部分池化（RPP），模型在 Market-1501 上的表现进一步提升到了 93.8% (+1.5%) 的 rank-1 准确率和 81.6% (+4.2%) 的 mAP。

研究者结合这两种方法，在人物检索上实现了新的当前最优水平。重要的是，实验证明，精炼部分要优于注意部分，即通过注意力机制学习到的部分。

图 2：PCB 的结构。输入图像从主干网络到形成 3D 张量的前向传播中通过堆叠的卷积层。PCB 用卷积池化层取代了原来的全局池化层，以在空间上将 T 下采样为 p 个列向量 g。一个随后的 1x1 核大小的卷积层减少了 g 的维度。最后，每个维度减少的列向量 h 被分别输入一个分类器。每个分类器用一个全连接层和一个序列 softmax 层实现。在训练过程中，每个分类器预测输入图像的身份，并由交叉熵损失所监督。在测试过程中，g 或 h 的 p 个部分被拼接以构成输入图像的最终描述子。

图 3：部分的内部不一致性的可视化。图左：T 在训练过程中被平等地分为 p=6 个水平条（部分）。图右：T 中的每个列向量用一个小矩形表示，并以和它最接近部分的颜色着色。

图 4：PCB 结合精炼部分池化方法。由于这里仅关心空间分区，3D 张量 T 简单地由一个矩形而不是方块表示。在 T 之前的曾被忽略，因为它们和图 2 中的相比没有变化。一个部分分类器预测每个列向量属于 p 部分的概率。然后每个部分从所有列向量中按对应概率（作为采样权重采样）。GAP 表示全局平均池化。

论文：Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)

论文链接：https://arxiv.org/pdf/1711.09349.pdf

摘要：利用部分级特征进行行人图像描述提供了细粒度的信息，已在近期文献中被证明对于人物检索很有用。基于部分检索的先决条件是每个部分都需要良好定位。本文没有使用外部线索（例如姿态估计）来直接定位部分，而是假设每个部分存在内容一致性。具体来说，我们的目标是学习判别性的 part-informed 的特征用于人物检索，并作出了两项贡献。（i）提出了一种称为基于部分的卷积基线网络（PCB）。给定一幅图像输入，它输出输出一个有多个部分级特征构成的卷积描述子。利用统一的分区策略，PCB 相比当前最佳方法达到了更有竞争力的性能，使其能作为人物检索的强大卷积基线。（ii）提出了一种精炼的部分池化（RPP）方法。统一的分区不可避免地会在每个部分导致异常值，这些异常值在实际上和其它部分更相似。RPP 重新分配这些异常值到它们最接近的部分中，得到增强部分内部一致性的精炼部分。实验表明 RPP 允许 PCB 获得另一轮性能提升。例如，在 Market-1501 数据集中，我们达到了（77.4+4.2）%mAP 和（92.3+1.5）% 的 rank-1 准确率，远远超越了当前最佳方法。

理论论文清华大学图像描述

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

交叉熵技术

交叉熵（Cross Entropy）是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小

来源：维基百科

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在维空间内，有个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。称为该张量的秩或阶（与矩阵的秩和阶均无关系）。在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达，记作标量的数组，但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中，表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了，它们都是二阶张量，对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源：维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源：Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259