Kaggle众所周知是从事机器学习和数据分析者的聚集地,今天就让我们迈入这个圣地,揭开它的面纱。
1 kaggle的主页面
主页上的菜单栏主要展示了Competitions(竞赛)、Datasets(数据集)、Notebooks(kernel,程序)、Discussion(讨论区)和Courses(相关基础课程)。
2 通过帮助文档全面了解下kaggle
竞赛:包括竞赛类别、竞赛形式、如何组队、如何提交结果
数据集:数据集类型、搜索创建暑数据集以及如何发起一个数据项目等
笔记本(Notebooks):其实就是kernel,类似于python的jupyter notebook。这是重点!你可以利用kaggle上的免费计算资源哦!
API接口:kaggle提供命令行的形式查看竞赛内容,下载和提交竞赛数据
3 Kaggle的竞赛类型
在这个页面我们可以搜索到所有的竞赛题目。
3.1 根据比赛内容分类
大致可以分为三类:
(1) 数据挖掘
(2) 计算机视觉(CV)
对于CV领域的竞赛,其标题下往往含有 image data或video data的标签,这类竞赛往往不仅仅包含图像分类,还有定位、检测和分割,当然也有视频理解。
3.2 根据比赛的级别分类
(1) 入门级:Getting started
入门级主要针对刚入门机器学习的初学者,是kaggle里最简单的比赛,都是永久性的。就好像是kaggle竞赛中的Hello world。在里面也会有很多大神给出的参考答案,有很多思想值得学习。因此是一个鼓励性质的比赛,没有奖品或者积分。
下图就列出了三个经典的入门级比赛:
手写数字识别:这个是CV届深度学习入门的Hello world,用来识别手写数字0~9,其来自美国国家标准与技术研究所,是数据集NIST的缩小版。
Titanic: Machine Learning from Disaster :是当年泰坦尼克号邮轮上旅客的真实数据,通过遇难者的基本信息来预测是否生存下来。是一个分类问题
房价预测:这个就是一个简单的回归问题。顾名思义,就是根据房子的基本信息进行房价的预测。
(2) 进阶级:Playground
Playground,顾名思义,一个广场,提供大家玩的。主要面向打过初级比赛后,想要尝试增加难度的新手。这种比赛后面通常会标有Kowledge(经验)、Kudos(荣誉)和少量奖金,因此一些示例比赛如:
猫狗分类
叶片分类
纽约出租车行驶时间预测
(3) 高级:Featured
(4)研究级别:Research
与高级比赛相比研究类比赛更具实验性,而且通常没有奖金和分数,但是其为解决某些竞争较弱的特定领域提供了解决方案。
一些举例:
谷歌地标检索挑战 - 给定一张图片,你能在数据集中找到所有相同的地标吗?
右鲸识别 - 在航拍照片中识别濒临灭绝的右鲸
大规模分级文本分类 - 将维基百科文档分为大约300000个类别之一
(5) 招聘型:Recruitment
举例比赛:
沃尔玛招聘 - 商店销售预测
爱彼迎招聘 - 新用户预定预测
(6) 年度比赛:Annual
第一个是三月机器学习比赛,自2014年以来每年都在美国大学篮球锦标赛上进行。
第二个是圣诞老人主题优化竞赛,每年圣诞节前后举办一次。
(7) 限制参与赛:Limited Participation
Kaggle很少举办有限参与的比赛。这些比赛要么是私人的,要么是邀请的。
有限参与比赛的一个例子是大师级比赛,这是一种私人比赛,只限制可见性和提交给受邀用户,通常是kaggle大师和大师级。 筛选Masters比赛类别,可以看到kaggle一共举办过6次master大赛,最近一次也是五年前了。
4 比赛的形式
(1) 经典形式
(2) 两阶段形式
其中一个例子就是 自然保护渔业监测竞赛.
(3)kernel-only形式
有些比赛只进行内核比赛或代码比赛。在这些比赛中,所有的参赛作品都是在一个kaggle内核内完成的,不可能直接上传参赛作品。
这些比赛有两个吸引人的特点。竞争更加平衡,因为所有用户都有相同的硬件津贴。而且获胜的模型往往比其他竞争中获胜的模型简单得多,因为它们必须在内核平台施加的计算约束下运行。
仅内核竞争配置了它们对您可以提交的内核的独特约束。这些特性可能受到如下限制:CPU或GPU运行时、使用外部数据的能力以及对Internet的访问。要了解必须遵守的约束条件,请查看特定竞争对手的内核需求。