论文标题:Hierarchical Feature Embedding for Attribute Recognition
2. 通过身份的限制,属于同一个 ID 的简单样本可以把本来难学的困难样本在特征空间上拉近,从而使困难样本更容易学习。
整体框架
我们提的方法整体框架如下图,主要由一个骨干网络,加多个属性分支组成。共享的骨干网络用来学习所有属性的共同特征,而每个单独的属性分支用来学习各个属性各自的特征。
对于损失函数,首先我们沿用传统的方法,采用交叉熵(Cross Entropy, CE)损失函数进行属性分类,表示为 LCE。
在 CE 基础上结合我们设计的多层次特征损失函数(LHFE),总的损失函数可以写成如下所示。这里w 表示权重。
多层次特征损失函数主要由两个三元组组成,一个是传统的类间三元组(Linter),如下。
为了形成细粒度的多层次的特征空间,我们利用身份信息构建类内三元组(Lintra),如下。
上述的损失函数虽然能同时维护类间特征和类内特征,但是只考虑了相对距离。从绝对距离角度上看,并不能保证在整个训练集中,锚样本和正样本的距离都小于锚样本和负样本的距离。为此,我们设计了绝对边界正则项(Absolute Boundary Regularization,ABR)如下:
因此我们的多层次特征损失函数(LHFE)由上述Linter、Lintra和 LBR 三项组成。
在训练初始的时候得到的特征空间并不可靠,由于五元组的选择依赖于特征空间,如果一开始就用较大的权重,可能会带来噪音。所以我们为上述损失函数设计了一个动态权重,通过权重动态增大,使特征空间慢慢地从原始的状态转向层次化的状态。
这里 T 表示整个训练的迭代次数,而 iter 表示当前的迭代次数。w0 是一个预先设置好的常数。
下图为属性可视效果对比,可以看出,对于属性比较清晰可见时,三个方法都能判断正确;而当遮挡发生或图像模糊时,CE 和 APR[4] 出现错误预测的概率较高,HFE 却还是能预测正确。
传送门
论文地址:
https://arxiv.org/abs/2005.11576
欢迎感兴趣的朋友阅读和交流。
References
[1] Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jing- dong Wang, and Qi Tian. Scalable person re-identification: A benchmark. In Proceedings of the IEEE international con- ference on computer vision, pages 1116–1124, 2015.
[2] ZhedongZheng,LiangZheng,andYiYang.Unlabeledsam- ples generated by gan improve the person re-identification baseline in vitro. In Proceedings of the IEEE International Conference on Computer Vision, pages 3754–3762, 2017.
[3] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proceedings of the IEEE international conference on computer vision, pages 3730–3738, 2015.
[4] Yutian Lin, Liang Zheng, Zhedong Zheng, Yu Wu, Zhi- lan Hu, Chenggang Yan, and Yi Yang. Improving person re-identification by attribute and identity learning. Pattern Recognition, 2019.