识别座头鲸，Kaggle竞赛第一名解决方案解读

不久之前，Kaggle座头鲸识别挑战赛结束，Earhian（乔健） YourVenn（王乙衡）、Tom 57、A.L.四位选手组成的团队夺得了第一名。本文主要介绍了冠军团队的解决方案。

图注：Kaggle座头鲸识别挑战赛 leaderboard

为了帮助鲸鱼保护，科学家们使用照片监视系统 (Photo Surveillance Systems) 来监视海洋活动。他们使用鲸鱼尾巴这一独一无二的标记来在连续的图像中识别鲸鱼，并对它们的活动进行细致地分析。在过去的四十年里，大部分工作基于科学家们的手工作业，这也使得大量的数据未被充分利用。

在这一竞赛中，我们是要构建算法来识别图像中的鲸鱼个体，而难点在于训练样本的严重不均衡以及存在近三分之一的无标注(new whale)数据。

1.概述

这是一个few shot learning和细粒度分类的问题。比赛初期，我们使用了softmax + 固定阈值的方法，仅对有标注的样本进行训练并通过阈值插入new whale的预测，但是没有取得很好的效果(MAP@5 < 0.9)。为了将new whale加入网络中训练，我们针对每一类鲸鱼进行二分类(如下图所示),并且使用triplet loss来做特征度量。通过大量实验，SE-resneXt154被作为最优的backbone，取得了单模型0.96的baseline，在追加了一系列tricks之后，单fold模型达到了0.969 (private LB: 0.97+ 榜上第三名)。最后，借助4 fold cross validation，以及类别平衡后处理，得到了最终public & private两榜第一名的0.973。