2019/10/29 15:02

2019ICCV论文爱奇艺提出：利用无标签数据优化人脸识别模型

研究背景

爱奇艺拥有海量优质的视频资源，对这些视频资源的结构化分析，尤其是分析视频中出现的人物尤为重要。目前，人脸识别技术已经应用到爱奇艺多个产品中，如“AI雷达”和“只看TA”。 “AI雷达”分析当前视频画面中出现的人物，“只看TA”分析整个视频中人物出现的所有场景片段。这两个产品底层都依赖人脸识别技术。

训练一个高性能的人脸识别模型，采用监督学习的方式，需要大量的带标签的人脸数据，通常数据量越大，训练的模型性能越好；人物越多，识别性能越好。目前公开库中较大的人脸数据集MS-Celeb-1M包括约10万个人物的1000万张图片；iQIYI-VID包括约1万个人物的64万个视频片段，其中iQIYI-VID-FACE包含约1万个人物600万张人脸图像。

然而，获取某个人的多张图片是比较困难的，需要人工标注。这在一定程度上阻碍了模型性能的提升。同时，人脸识别是个open-set问题，有标签数据中的几万个人物只是地球上几十亿人的极小一部分，训练出来的模型泛化能力可能不足。

为了解决上述问题，我们提出用无标签数据优化人脸识别模型。区别于其他半监督学习方法，我们的方法对无标签数据没有过多限制，只需基本保证这人不出现在有标签数据中。无标签数据的加入，可以轻易扩大训练人物数量，提升模型泛化能力。

Unknown Identity Rejection（UIR）Loss

为了利用无标签数据，我们设计了半监督损失函数，Unknown Identity Rejection（UIR）Loss。人脸识别是open-set问题，将开放环境中的人物类别分为两类：有标签类（S）和无标签类（U），。训练过程中，对于有标签类，每个样本特征需要逼近分类层对应类别的类心向量；对于无标签类，它不属于分类层的任何一个类，模型需要“拒绝”它们，即特征与每个分类层类心距离都足够远。如下图（a），w1w1和w2表示两个分类层类心向量，圆点表示样本特征。图（b）中，加入无标签类wu后，为了wu距离w1和w2、足够远，会使得有标签类别在特征空间上更稀疏，类间距离更大。

对于CNN分类模型，全连接分类层的输出经过softmax后得到p1，p2…pn，表示属于各个类别的概率值。然而无标签类别并不属于任何一类，理想情况下p1，p2…pn应该都足够小，可以通过设置阈值将其过滤，提升库外拒绝率。基于这个想法，问题可以转化成：

minimize

上式是多目标最小化问题，可以转化成：

maximize

因此得到UIR loss，即：

模型总的loss是有标签类别的loss加上无标签类别的UIR loss，

模型框图如下，无标签数据和有标签数据一起作为输入，经过骨干网络得到特征，全连接层得到输出概率值，根据概率值分别计算 Lsup和Luir。

实验结果

我们采用MS-Celeb-1M清洗过后的MS1MV2数据集作为有标签数据，包括9万人物类别的5百万图片数据。从网上爬取数据，经过清洗，基本保证与有标签数据较低的重合率，得到约4.9百万张无标签数据。

分别在iQIYI-VID和Trillion-Pairs和IJB-C三个测试集上验证了方法的有效性。测试了四种骨干网络，实验结果说明，加入无标签数据的UIR loss后，模型性能有所提升。由于篇幅原因，IJB-C测试结果只贴了ResNet100部分，其他结果可参照论文。

		TrillionPairs TAP@FAR=	iQIYI-VID TAP@FAR=
ResNet50	Baseline	90.041	60.288
ResNet50	Ours	90.525	62.041
ResNet100	Baseline	92.955	65.139
ResNet100	Ours	93.325	67.214
MobileNet-V1	Baseline	70.040	35.161
MobileNet-V1	Ours	71.176	37.656
MobileNet-V2	Baseline	68.699	28.780
MobileNet-V2	Ours	69.326	29.808

进一步分析

UIR Loss使得特征分布更稀疏

从实验结果来看，加入无标签数据的UIR loss后，UIR Loss能使模型学习到更具区分性的特征。下面从模型分类层类心间距离这一角度来验证特征分布的稀疏性。我们计算了分类层类心两两间的cos距离，距离越大，类心分布更稀疏。结果如下表：

随着骨干网络性能提升，baseline和ours的平均距离逐渐增大。同时，ours的平均距离大于baseline。这说明了UIR Loss使得特征分布更稀疏。

UIR Loss提升库外拒绝率

我们找了一批新的无标签数据，统计了它们模型最后输出的最大概率值，值越小，代表性能越好。

总结与展望

半监督损失函数UIR loss可以有效的借助海量无标签的人脸数据，优化人脸识别模型性能，提升模型泛化能力。这一研究成果已经应用到了爱奇艺诸多产品中，在提高用户体验、提高视频内容的创作效率等都发挥了极大作用。爱奇艺APP的“只看Ta”功能，可以实现只看某个演员或者某对CP的功能，不仅满足用户追星或只看某些人物片段的需求，还有助于演员回顾自己演戏的内容，甚至帮助导演挑选自己需要的演员。其实，帮助导演选择演员，爱奇艺还专门有个APP叫“艺汇”，艺汇里通过AI收集了大量的知名或不知名的演员，借助强大的人脸识别模型，不仅可以在海量视频中定位到只属于该演员的CUT片段，还会根据演员的颜值、脸型、气质类型精确搜索心意角色。人脸识别的另一大特色应用，就是用户所熟知的AI雷达功能，在爱奇艺APP中点击画面左侧的“扫一扫”按钮，就可以随时看到画面中的演员角色信息，同时在电视端遥控器轻轻按“上键”，就可以在电视画面上展现明星的“这是谁”信息。在专业的视频内容制作方面，爱奇艺的爱创媒资系统可以支持人物搜索、特定人物的表情搜索、声纹识别等，大大提高了制作人员的效率。

爱奇艺借助其强大的技术实力和前沿的AI研发能力，不断的创新突破，走在视频行业的最前面。当然，技术创新永无止境，人脸识别虽然有诸多成熟的应用，但在某些较为极端的情况下，如人脸过于模糊、遮挡过多、侧脸角度过大，甚至只出现背影等情况，单纯依靠人脸识别无法解决，这需要借助多模态来解决。爱奇艺发布的iQIYI-VID数据集是目前业界数据最大的多模态人物识别视频数据集，有效的推进了多模态技术的发展，引起了行内人士的广泛关注。

数据集详情：http://challenge.ai.iqiyi.com/data-cluster

论文链接：https://128.84.21.199/abs/1910.10896

理论模型训练视觉识别人脸识别

2 1

相关数据

半监督学习技术

半监督学习属于无监督学习（没有任何标记的训练数据）和监督学习（完全标记的训练数据）之间。许多机器学习研究人员发现，将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理（例如转录音频片段）或物理实验（例如，确定蛋白质的3D结构或确定在特定位置处是否存在油）。因此与标签处理相关的成本可能使得完全标注的训练集不可行，而获取未标记的数据相对便宜。在这种情况下，半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣，也是人类学习的典范。

来源：Wikipedia

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

爱奇艺机构

2010年4月22日正式上线，推崇品质、青春、时尚的品牌内涵如今已深入人心，网罗了全球广大的年轻用户群体，积极推动产品、技术、内容、营销等全方位创新。企业愿景是做一家以科技创新为驱动的伟大娱乐公司。于2018年3月29日在纳斯达克上市。

http://iQIYI.COM