Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

「扫鼻子,找狗子」是怎么做到的?答案在这篇CVPR论文里

还记得支付宝「扫鼻子,找狗子」的新功能吗?最近,研究者把论文公布了出来。

世上没有两片完全相同的树叶,也没有完全相同的两个狗 / 猫鼻子。

前段时间,机器之心报道了支付宝上线的一个新功能:利用鼻纹识别帮助养宠物的家庭寻找走失宠物。这一功能的操作非常简单。首先,打开支付宝搜「防走丢」,然后录入宠物鼻纹信息,你就可以为自己的宠物领取一张独一无二的电子「身份证」。一旦宠物走丢,你可以一键报失,如果路人看到走丢宠物,可用支付宝扫鼻纹进行识别,通过虚拟号码联系你,送宠物回家。

这项看似简单的功能其实离不开研究者的悉心钻研,还要克服许多困难,比如宠物鼻子小、纹路不清晰;宠物好动,照片不容易捕捉等。

在最近的一篇 CVPR 2021 论文中,研究者公布了这项功能背后的技术。除了识别猫、狗的鼻纹,这项与细粒度检索任务有关的研究还可以解决其他很多问题。有兴趣的同学可以去阅读原文。

论文链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Xu_Discrimination-Aware_Mechanism_for_Fine-Grained_Representation_Learning_CVPR_2021_paper.pdf

细粒度检索

细粒度检索任务是指数据集来自于一个具体的类别,比如狗、猫、人、车、鸟等,需要匹配出具体类别下的个体身份,比如 Person A,Person B。通常采用分类 + 度量学习损失共同监督网络学习,期望得到一个鲁棒的特征提取器,使得提取到的特征在同身份之间的相似度尽可能大,不同身份间的相似性尽可能小,从而能够将与 query 图片同身份的图片检索出来。

这一任务的难点在于:同一个身份由于拍摄的角度、光照、时间等不同而具有较大的差异性。由于细粒度任务的身份同属于一个大类,不同身份间具有较大的相似性,比如同品种的贵宾犬,有相似的体型、外观、毛色,只有一些比较细微的地方具有判别性信息,比如鼻纹纹理、眼睛形状、细微的花纹形状等,因此学到的特征需要能够捕捉到一些细微的有判别性的差异,从而区分图片样本的身份。

现有的方法通常将特征的所有元素作为一个整体来进行监督优化,包括设计更优的损失函数 [1,2],构造注意力机制使网络关注一些重要区域 [3],在训练中随机擦除图片 | 特征元素提升一定的泛化性 [4,5]。这对于细粒度任务来说不是最优的,当特征中的某些元素已经具备区分性时,训练会收敛,从而忽略了继续学习一些具有判别性的细节信息。

方法实现

本文的目的是学习一种特征,使得特征的每个元素都具有区分性,以此来让特征提取到尽可能多的信息,提升特征整体的区分性,从而能够区分细粒度样本间的身份。为了学习到每个元素都具备区分性的特征,研究者提出了一种判别性感知机制——DAM。通过迭代地将已具备判别性的元素擦除、保留判别性较弱的元素继续学习,不断将特征空间变难,循环优化使得最后得到的特征更为鲁棒。

 
为了确定特征中需要继续学习的元素,首先需要计算每个元素的判别性。对于不同身份的样本,如果特征元素的差异较大,说明该特征元素已具备判别性;反之,该特征元素需要继续学习。因此,采用身份之间的各个特征元素的差异来判别判别性。网络分类器的参数具备特征分类能力,通过利用 cross-entropy 计算特征投影到各个分类器的参数间的相似性来进行优化,因此网络分类器的参数可以用作身份的代理,分类器中不同身份参数的各个元素间的差异可以反映不同身份特征元素间的差异。

w_i 是一个和特征维度相等的向量,表示身份 i 对应分类器的参数,W_{i,j} 是一个和特征维度相等的向量,表示身份 i 和身份 j 之间的各个特征元素的差异。

得到不同身份样本间的各个特征元素的差异后,在训练过程中需要根据差异大小对特征元素进行擦除或保留。将判别性大的特征元素进行保留,判别性小的元素进行擦除。

对于同一身份间的不同样本,相互之间具有区分性的特征元素,为对其他所有类别都具备区分性的元素,因此用该身份的分类器参数和其他所有身份分类器参数差异的平均值替代。

整个新特征生成过程如图:

最后对新特征空间中的特征进行分类损失和度量损失监督,不断进行特征优化,从而得到更优的特征。

实验结果

判别性感知机制的效果在多个细粒度检索数据集上进行了验证,包括鸟的数据集 CUB-200-2011,车的数据集 Cars199,行人的数据集 Market-1501、MSMT17。

新方法和 state-of-the-art 方法相比也有一定的优越性。

和随机擦除方法比较:

结论

DAM 可以让更多的特征元素具备判别性,这一优势在多个任务上得到了验证,包括公开数据集和宠物场景的 1:1 身份比对、1:N走丢检索、品种识别。在实现的过程中,此方法对于继续学习元素的选择直接采用平均值做取舍,更加动态的选择方法值得进一步探索。

Reference
[1] Xun Wang, Xintong Han, Weilin Huang, Dengke Dong, and Matthew R Scott. Multi-similarity loss with general pair weighting for deep metric learning. In CVPR, 2019.
[2] Yifan Sun, Changmao Cheng, Yuhan Zhang, Chi Zhang, Liang Zheng, Zhongdao Wang, and Yichen Wei. Circle loss: A unified perspective of pair similarity optimization. In CVPR, 2020.
[3] Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, and Xilin Chen. Interaction-and-aggregation network for person re-identification. In CVPR, 2019.
[4] Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. Random erasing data augmentation. In AAAI, 2020.
[5] Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. Dropblock: A regularization method for convolutional networks. In NeurIPS, 2018.

理论支付宝鼻纹识别
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

度量学习技术

即学习一个度量空间,在该空间中的学习异常高效,这种方法多用于小样本分类。直观来看,如果我们的目标是从少量样本图像中学习,那么一个简单的方法就是对比你想进行分类的图像和已有的样本图像。但是,正如你可能想到的那样,在像素空间里进行图像对比的效果并不好。不过,你可以训练一个 Siamese 网络或在学习的度量空间里进行图像对比。与前一个方法类似,元学习通过梯度下降(或者其他神经网络优化器)来进行,而学习者对应对比机制,即在元学习度量空间里对比最近邻。这些方法用于小样本分类时效果很好,不过度量学习方法的效果尚未在回归或强化学习等其他元学习领域中验证。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~