2019/06/06 13:14

极链科技两次夺冠Google AI地标识别大赛，推动国内识别检索技术再进阶

经过2个月的激烈角逐，由Google主办的2019 Google地标识别挑战赛结果于近日揭晓，来自极链科技AI团队的参赛者以大比分的优势取得第1名，这是极链科技在Google地标大赛中第二次取得冠军，也是中国AI团队在国际竞赛中又一次里程碑式的胜利。

作为本次挑战赛的获胜者，极链科技也将再次受邀在美国举办的CVPR 2019会议上发表技术研讨，该会议是全球计算机视觉领域的顶级会议，在会议业界和学界都享负盛名。

去年，Google发布了Google-Landmarks，这是当时世界上最大的地标数据集，为了促进实例级识别和图像检索方面的研究进展，Google还并举办了两场比赛：Landmark Recognition 2018和Landmark Retrieval 2018，有500多名研究人员和机器学习研究人员参加。

今年，谷歌又发布了一个全新的、更大的地标数据集google-landmarks-v2。这是一个全新的、甚至更大的地标识别数据集，该数据集中包含了413万张图片，是去年的3倍以上，地标数量更是达到20万种不同的地标。这些地标包括德国新天鹅堡、美国金门大桥、日本清水寺、吉萨大狮身人面像、马丘比丘等。谷歌表示，数量如此庞大的图片，之所以能够完成标注，多亏了世界各地摄影师社区的努力，才推动了数据集的产生。

谷歌AI软件工程师Bingyi Cao和Tobias Weyand表示：“实例识别和图像检索方法都需要更大的数据集，包括图像数量和各种标志，以便训练更好，更强大的系统。我们希望这个数据集能够帮助推进实例识别和图像检索方面的最新技术。”

由于规模的差异，此数据集的多样性要大得多，并且对最先进的实例识别方法构成了更大的挑战。基于这个新的数据集，Google以此为契机推出了2019 Google地标识别挑战赛，来号召全球的计算机视觉领域的科学精英共同参与，共同朝着更复杂的地标检测计算机视觉模型迈出巨大的一步。

2019 Google地标识别挑战赛谷歌依然在Kaggle平台上进行报名及提交，该平台在全球范围内拥有数百万的数据科学家用户，是全球最具权威的数据科学竞赛平台。参赛机制需要参赛者在给定查询图像后，在数据库中识别出包含查询地标的所有图像，这对于上百万级的数据体量与无关信息过多的图像内容而言，挑战难度难以想象。

除此之外，由于检测对象是地标的原因，它的识别相对其他对象的同类操作之间也存在显著差异。例如，就算在大型带标注的数据集里，那些不太热门的地标，一般情况下是不存在训练数据的；另外，地标通常是不可移动的刚性对象，此时图像的捕获条件，如遮挡、角度、天气、光线等，都会对识别结果产生影响。

尽管如此，地标识别挑战赛仍旧吸引了来自全球的281支团队，赛程先后历时2个月，参赛者都是世界各地计算机视觉领域具有丰富经验的优质个人与团队。极链科技的AI团队最终以总分0.37606位列榜单第1名，超越了很多知名AI团队；第2名和第3名的得分分别为0.35988和0.35541。

作为本次Google地标识别挑战赛的冠军，极链科技的参赛AI团队也分享了他们的获胜方案：

本次比赛和去年存在相同的几个难点：

1.类别数量极不平均：平均每类20.35张样本，但不到20张的类别有15万类，差不多是总数的4分之3，其中将近1万9千类样本数目更是只有1张；

2.由于未经过任何人工清洗，训练集同一类别中存在很多图片没有任何共同点，或者同一地标的图片出现在不同类别内；

3.测试集内存在大量干扰图片。

本次比赛采用的方法大致如下（更详细的介绍应主办方要求将会以论文形式上传arXiv）：

由于今年类别总数超过20万，我们直接放弃CNN分类网络的训练并选择以检索方法为中心思想，具体由以下两个模型及三个步骤组成。

模型1：Global Retrieval Model。在清理过的训练集（总共83万张，11万类）上训练的基于全局特征的检索模型，backbone选用ResNet-101, ResNeXt-101, SE-ResNet-101, SE-ResNeXt-101, SENet-154五种基础模型，pooling选用GeM, RMAC, MAC, SPoC四种，且每个global pooling后都接了1024维输出的全连接层，最终的特征由以上四个pooling输出（每个2048维）和四个全连接输出（每个1024维）拼接组成，共12288维。损失函数选择Contrastive+Triplet同时训练，训练后利用attenuated unsupervised whitening降维至2048。最终模型由以上这五个模型（对应五个基础网络）和开源的DIR模型加权拼接组成。

模型2：Local Retrieval Model。此模型采用谷歌最近开源的Detect-to-Retrieve(简称D2R)模型。（https://github.com/tensorflow/models/tree/master/research/delf）

步骤1：用模型1将所有11.8万测试集图片与413万训练集图片进行比对，每张测试图片保留与其最接近的五张训练图片的相似度，并选取总和最高的类别作为最终预测。此步骤在private/public榜单分数为0.25138/0.21534。

步骤2：和步骤1一样，不过这次保留top-20训练图片并用模型2进行二次比对，最终预测选用二次比对top-5总分(D2R)最高的类别。此步骤在private/public榜单分数为0.31870/0.26782。

步骤3：此步骤为整个流程中最关键的一步。由于比赛采取GAP机制评分，若干扰图片在ranked list中排名过高会直接影响最终成绩，对此我们采取以下re-ranking策略。从步骤2的rank-1测试图片开始，对所有排名靠后（直至rank-20000)的图片用模型2进行比对，若得分高于特定阈值（我们设定为23），则提高此图片的排名。对所有top-500的测试图片都进行此操作后对重新排序的list进行二次re-rank。此流程结束后private/public榜单分数为0.36787/0.31626。最后，将此策略用在步骤1的预测上（这次选取top-300，由于步骤1的分数相对较低），并将两个新的re-ranked lists的top图片以交叉形式排序，得分为最终夺冠分数0.37606/0.32101。

另外，我们也尝试了用模型1提取的特征训练MLP，并对其进行以上步骤3的操作。此结果最终在private榜单上的分数可以提高至0.37936，不过可惜由于其在public榜单得分0.32100，我们没有选取此次提交作为最终提交。

最后，极链科技的参赛AI团队还表示他们在此次挑战赛中运用到的算法将用于极链科技的产品中。

极链科技再次参加到Google地标挑战赛，是极链科技对识别技术的一次成果展示，也是极链科技对自己多年来深耕AI的技术自信。极链科技在场景识别、视频识别等领域上已经取得突出的成果，并成功在AI+视频领域成为国内头部企业。此次在Google地标挑战赛中第二次夺得桂冠，也彰显了极链科技在计算机视觉领域的领先实力。据悉，5月31日，极链科技与复旦大学联合主办的VideoNet视频内容识别挑战赛正式接受注册报名，未来，极链科技也将持续为促进人工智能研发，共同探索前沿领域的技术突破及应用创新，以此成为新一代视频AI领军企业。

产业极链科技Google AI图像检索场景识别视频识别计算机视觉

3 1

相关技术

知识图谱

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法，以便可以对注释词执行检索。手动图像注释耗时，费力且昂贵; 为了解决这个问题，人们已经对自动图像标注进行了大量研究。

来源：Image retrieval

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题，其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射（projection）。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归（principal component regression）和偏最小二乘法（partial least squares）。

来源：机器之心

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

极链科技机构

极链Video++作为全球视联网-视频商业操作系统的构建者，服务数百个品牌、商家、合作伙伴，实现客户价值倍增。以AI技术赋能视频中的信息，链接互联网信息、服务、购物、社交、游戏五大模式，实现基于视频的新互联网经济体。

http://www.videopls.com