Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

数据分析kaggle

干货 | 数据分析——Kaggle竞赛入门

Kaggle众所周知是从事机器学习和数据分析者的聚集地,今天就让我们迈入这个圣地,揭开它的面纱。

Kaggle众所周知是从事机器学习数据分析者的聚集地,今天就让我们迈入这个圣地,揭开它的面纱。

1 kaggle的主页面

kaggle主页面

主页上的菜单栏主要展示了Competitions(竞赛)、Datasets(数据集)、Notebooks(kernel,程序)、Discussion(讨论区)和Courses(相关基础课程)。

这里比较重要的是Competitions(竞赛),我们来看看它!

2 通过帮助文档全面了解下kaggle
最简单的方式就是根据官方文档来了解kaggle了,点击下图所示的地方,就可以进入帮助文档,帮助文档介绍了四个方面
  • 竞赛:包括竞赛类别、竞赛形式、如何组队、如何提交结果

  • 数据集:数据集类型、搜索创建暑数据集以及如何发起一个数据项目等

  • 笔记本(Notebooks):其实就是kernel,类似于python的jupyter notebook。这是重点!你可以利用kaggle上的免费计算资源哦!

  • API接口:kaggle提供命令行的形式查看竞赛内容,下载和提交竞赛数据
    帮助文档1

帮助文档2
3 Kaggle的竞赛类型

竞赛页面

在这个页面我们可以搜索到所有的竞赛题目。

3.1 根据比赛内容分类

大致可以分为三类:

(1) 数据挖掘

kaggle上大多都是数据挖掘类的竞赛,其便签往往是tabular data

(2) 计算机视觉(CV)

对于CV领域的竞赛,其标题下往往含有  image data或video data的标签,这类竞赛往往不仅仅包含图像分类,还有定位、检测和分割,当然也有视频理解。

图像数据标签

含有ImageData标签竞赛的统计

(3) 自然语言处理(NLP)
对于NLP领域的竞赛,其往往含有text data或nlp的标签

含有text data标签的比赛

3.2 根据比赛的级别分类

级别分类

(1) 入门级:Getting started

入门级主要针对刚入门机器学习的初学者,是kaggle里最简单的比赛,都是永久性的。就好像是kaggle竞赛中的Hello world。在里面也会有很多大神给出的参考答案,有很多思想值得学习。因此是一个鼓励性质的比赛,没有奖品或者积分。

下图就列出了三个经典的入门级比赛:

  • 手写数字识别:这个是CV届深度学习入门的Hello world,用来识别手写数字0~9,其来自美国国家标准与技术研究所,是数据集NIST的缩小版。

  • Titanic: Machine Learning from Disaster :是当年泰坦尼克号邮轮上旅客的真实数据,通过遇难者的基本信息来预测是否生存下来。是一个分类问题

  • 房价预测:这个就是一个简单的回归问题。顾名思义,就是根据房子的基本信息进行房价的预测。

    三个经典的入门级比赛

(2)  进阶级:Playground

Playground,顾名思义,一个广场,提供大家玩的。主要面向打过初级比赛后,想要尝试增加难度的新手。这种比赛后面通常会标有Kowledge(经验)、Kudos(荣誉)和少量奖金,因此一些示例比赛如:

image.png

  • 猫狗分类

  • 叶片分类

  • 纽约出租车行驶时间预测

(3) 高级:Featured

Featured,即重要比赛或者高级比赛。通常带有商业目的,难度较大,需要有深厚的机器学习功底。

高级比赛

重点是:高级比赛是有赏金的!有的奖池子高达100万美元!当然要获得奖金必须位列前几名,拿刚刚结束的Two Sigma: Using News to Predict Stock Movements这个比赛为例,总奖金高达10万美金,第一名可以分的2.5万美元,第二名2万美元,直到第七名是1万美元。而且每个人都可以参与哦!

奖金分配示例

当然没有获得奖金的也有🏅️金牌、🥈银牌和🥉铜牌之分,一般都是多个,如果参加比赛的队伍有两千多个,通常位列200左右也都可以获得铜牌。
排行榜中的奖牌

(4)研究级别:Research

与高级比赛相比研究类比赛更具实验性,而且通常没有奖金和分数,但是其为解决某些竞争较弱的特定领域提供了解决方案。
    一些举例:

  • 谷歌地标检索挑战 - 给定一张图片,你能在数据集中找到所有相同的地标吗?

  • 右鲸识别 - 在航拍照片中识别濒临灭绝的右鲸

  • 大规模分级文本分类 - 将维基百科文档分为大约300000个类别之一

(5) 招聘型:Recruitment

在招聘竞赛中,个人将为公司策划的挑战建立机器学习模型。在比赛结束时,感兴趣的参与者可以上传他们的简历供主持人考虑。奖品是(可能)举办比赛的公司或组织的工作面试。
举例比赛:
  • 沃尔玛招聘 - 商店销售预测

  • 爱彼迎招聘 - 新用户预定预测

(6) 年度比赛:Annual

虽然本身不是严格的竞争类型,但Kaggle保持着每年两次的竞争传统。
第一个是三月机器学习比赛,自2014年以来每年都在美国大学篮球锦标赛上进行。
第二个是圣诞老人主题优化竞赛,每年圣诞节前后举办一次。

(7) 限制参与赛:Limited Participation

Kaggle很少举办有限参与的比赛。这些比赛要么是私人的,要么是邀请的。
有限参与比赛的一个例子是大师级比赛,这是一种私人比赛,只限制可见性和提交给受邀用户,通常是kaggle大师和大师级。 筛选Masters比赛类别,可以看到kaggle一共举办过6次master大赛,最近一次也是五年前了。Master大赛
4 比赛的形式

(1) 经典形式

简单(或“经典”)的比赛是那些遵循标准kaggle格式的比赛。在简单的竞争中,用户在接受竞争规则后,可以在竞争开始时访问完整的数据集。作为竞争对手,您将下载数据,在本地或内核中构建模型,生成预测文件,然后将预测作为提交文件上传到kaggle上。到目前为止,关于kaggle的大多数比赛都遵循这种格式。

(2) 两阶段形式

在两阶段比赛中,挑战分为两部分:第一阶段和第二阶段,第二阶段建立在第一阶段取得的成绩上。阶段2涉及在阶段开始时发布的新测试数据集。阶段2的合格性通常需要在阶段1中提交。在两阶段比赛中,阅读和理解比赛的具体规则和时间表尤为重要。
其中一个例子就是 自然保护渔业监测竞赛.

(3)kernel-only形式

有些比赛只进行内核比赛或代码比赛。在这些比赛中,所有的参赛作品都是在一个kaggle内核内完成的,不可能直接上传参赛作品。

这些比赛有两个吸引人的特点。竞争更加平衡,因为所有用户都有相同的硬件津贴。而且获胜的模型往往比其他竞争中获胜的模型简单得多,因为它们必须在内核平台施加的计算约束下运行。

仅内核竞争配置了它们对您可以提交的内核的独特约束。这些特性可能受到如下限制:CPU或GPU运行时、使用外部数据的能力以及对Internet的访问。要了解必须遵守的约束条件,请查看特定竞争对手的内核需求。

中国人工智能开放创新平台
中国人工智能开放创新平台

平台由贵阳市政府、英特尔及中国产业创新联盟共同打造,致力于深化AI产业结构发展,扶持AI初创企业,打造AI生态圈,集合众多海内外高校导师及行业大牛,撰稿深度分析专业技术及应用,为 智能+注入源源不断的活力。

入门Kaggle数据分析机器学习
6
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

推荐文章
暂无评论
暂无评论~