看完这篇文章,怎样打比赛应该心里有数了。
成功参赛者的工具选择:Python、Pydata、Pytorch 和梯度提高的决策树。 深度学习仍未取代梯度增强的决策树,尽管在结识增强方法时,前者通常价值会有所提升。 Transformer 继续在 NLP 中占主导地位,并开始在计算机视觉中和卷积神经网络开始竞争。 当今数据竞赛涵盖了广泛的研究领域,包括计算机视觉、NLP、数据分析、机器人、时间序列分析等。 大集合模型在获胜方案中仍然很普遍,一些单模型解决方案也能赢。 有多个活跃的数据竞赛平台存在。 数据竞赛社区持续增长,在学界也是一样。 大约有 50%获奖者是一人团队,50%的获奖者是首次得奖。 有人使用了高端硬件,但 Google Colab 这样的免费资源也能赢得比赛。
Kaggle 是最成熟的平台之一,它在 2017 年被谷歌收购,并拥有最大的社区,最近吸引了 1000 万用户。在 Kaggle 上进行带奖金的比赛可能非常昂贵。除了举办比赛外,Kaggle 还允许用户托管数据集,笔记和模型。 Codalab 是一个开源竞赛平台,由巴黎大学 - 萨克莱大学维护。任何人都可以注册,主持或参加比赛。其提供免费的 CPU 资源可用于推理,比赛组织者可以用自己的硬件进行补充。 Zindi 是一个较小的平台,具有非常活跃的社区,专注于将机构与非洲的数据科学家联系起来。Zindi 还举办面对面的黑客马拉松和社区活动。 Drivendata 专注于具有社会影响的竞赛,并为 NASA 和其他组织开展了比赛。竞赛总是在深入的研究报告后跟进。
Aicrowd 最初是瑞士联邦理工学院(EPFL)的研究项目,现在是前五名竞赛平台之一。它举办了几次 NeurIPS 官方比赛。