2019/04/16 14:49

Parul Pande作者

除了Kaggle，这里还有一些高质量的数据科学竞赛平台

除了大名鼎鼎的 kaggle，数据科学家可以参加的数据竞赛平台其实还蛮多的。有些比赛平台不仅提供比赛，还让你有机会自己创办比赛。有些比赛由公司赞助，有些由政府机构赞助。参加这些比赛不仅能让你的能力获得认可，还可以获得一些不菲的奖金呢~

在听了上百节慕课（MOOC）、看了上千本书和笔记、聆听了上百万人对数据科学的看法后，你会做什么呢？你要开始应用这些概念啦。应用机器学习概念的唯一方法就是亲自动手。你可以在感兴趣的领域选一些现实问题，也可以参加编程马拉松（Hackathon）和机器学习竞赛。

数据科学比赛不仅是算法的应用。从本质上讲算法是一种工具，任何人都可以写几行代码来使用它。参加这些比赛的主要原因是它们能提供很好的学习机会。当然，竞赛中的问题和现实问题不一定一样，但这些平台可以让你将学到的知识付诸实践，还能让你了解自己和他人的差距。

参加数据科学比赛的好处

参加这些比赛可以说是有百利而无一害。它里里外外的好处有很多，比如：

这是一个学习的好机会；
可以接触当前最佳的方法和数据集；
可以和志同道合的人交往，团队合作很棒的地方在于可以从不同角度思考问题；
可以向世界展现你的才华，从而获得更好的就职机会；
参与并了解自己在排行榜上的表现也很好玩；
还有奖品作为额外福利，但不应把它作为唯一的标准。

2009 年 9 月 18 日，BellKor Pragmatic Chaos 团队在决赛中获胜，正式赢得 NetFlix 的比赛。

Kaggle 是很有名的数据科学竞赛平台。这个在线社区有 10 万多注册用户，这些用户有新手也有专家。但除了 Kaggle，还有一些其它值得了解和研究的数据挖掘竞赛平台。

Driven Data

Driven Data 举办数据科学竞赛的目的是要建设更美好的世界，用最先进的预测模型来解决世界上最棘手的问题。Driven Data 在国际发展、医疗、教育、研究和保护以及公共服务等领域举办数据科学竞赛，以谋求社会利益。你既可以参加平台上的竞赛，也可以通过该平台举办自己的竞赛。

该网站有专门的示例项目部分，这部分以案例研究的形式展示了一些成功的项目。Driven Data 列出的数据集都与一些非营利组织相关，数据从野生动物保护到公共卫生都有。因此，如果你想将自己的技能应用于实际问题，那这个平台简直就是为你而建的。

Driven Data：https://www.drivendata.org/
参加比赛：https://www.drivendata.org/competitions/
组织比赛：https://www.drivendata.org/partners/
示例项目：http://drivendata.co/projects.html

CrowdANALYTIX

CrowdANALYTIX 是一个众包分析平台，该平台将商业上的挑战和问题转换成竞赛题目。CroudANALYTIX 社区通过合作与竞争的方式来构建和优化 AI、ML、NLP 和深度学习算法。该平台还有社区博客，其中有包括访谈和参考资料在内的大量资源。

CrowdANALYTIX：https://www.crowdanalytix.com/community
Community Blog：https://www.crowdanalytix.com/jq/communityBlog/listBlog.html

Innocentive

InnoCentive 的重点在生命科学上，但也有其它有趣的竞赛主题。参赛者可以参与解决一些世界上最紧迫的问题——从促进家用净水供应到旨在吸引和杀死携带疟疾的蚊子的被动式太阳能装置。挑战是真正的问题，它需要持续集中注意力、批判性思维、研究、创造力以及综合性知识。开发出解决方案就是最大的奖励，在这个过程中还可以进行无与伦比的脑力锻炼。

InnoCentive：https://www.innocentive.com/our-solvers/

TunedIT

TuneIT 最初是华沙大学（University of Warsaw）的一个理科博士项目，其目的是帮助数据挖掘科学家进行可重复的实验并轻松评估数据驱动算法。后来出于教育、科研以及商业目的，补充了用于举办数据竞赛的 TunedIT Challenges 平台。

TunedIT：http://tunedit.org/
TunedIT Challenges：http://tunedit.org/challenges

Codalab

Codalab 是一个基于 web 端的开源平台，平台上的研究人员、开发人员以及数据科学家互相合作，以推进使用机器学习和高级计算的研究领域的发展。CodaLab 通过其在线社区解决数据导向研究领域的很多常见问题，人们可以在该社区共享 worksheets 并参与竞赛。你既可以参加现有竞赛，也可以举办新的竞赛。

CodaLab：https://competitions.codalab.org/

Analytics Vidhya

Analytics Vidhya 除了为分析和数据科学专业人士提供了基于社区的知识门户，还提供了大量数据科学的学习资源。该平台还会举办编程马拉松，通过竞赛形式解决真实的行业问题。你既可以参加竞赛，也可以赞助编程马拉松。大多数在 Analytics Vidhya 上组织编程马拉松的公司，都会给表现优异的参赛者提供很好的工作机会。

Analytics Vidhya：https://datahack.analyticsvidhya.com/?utm_source=main-logo

CrowdAI

数据科学挑战平台 crowdAI 每年都会举办很多开放的数据科学挑战赛。这些比赛覆盖了图像分类、文本识别、强化学习、对抗攻击、图像分割、资源配置优化等多个领域。2017 年亚马逊和英伟达赞助的竞赛叫做「Learning to Run」，奖金高达 10 万多美元。

crowdAI：https://www.crowdai.org/challenges
Learning to Run：https://www.crowdai.org/challenges/nips-2017-learning-to-run

Numerai

Numerai 是由众多数据科学家建立的、AI 运营的众包对冲基金平台。该平台每周都会举办数据科学竞赛以支持真正的对冲基金。Numerai 每周给参赛者提供加密数据，然后参赛者们提交其预测值。之后 Numerai 会根据所有提交结果构建元模型，并进行投资。

数据科学家们提交自己的预测值来换取一些 Numeraire，这是一种以太坊区块链上的加密货币。

Numerai：https://numer.ai/rounds

天池

天池是阿里云创建的数据竞赛平台，它和 Kaggle 很像。该社区中有成千上万互相合作的数据科学家，他们还可以在该平台中联系全球的企业和政府，以解决各行业中最棘手的问题。

天池：https://tianchi.aliyun.com/competition/gameList/activeList

DataScienceChallenge

Data Science Challenges 是由国防科学技术实验室（Dstl）以及包括政府科学办公室（Government Office for Science）、SIS 和 MI5 在内的许多英国政府部门共同赞助举办的，旨在鼓励数据科学领域的优秀人才解决现实问题。该平台提供的两个挑战赛现在已经结束了，但很快就会出现新的问题，这些比赛将鼓励你找出现实问题的非正统答案。

Data Science Challenges：https://www.datasciencechallenge.org/

此外还有一些每年仅举办一次的比赛。

KDD CUP

KDD Cup 是 ACM 的数据挖掘及知识发现专委会（SIGKDD）组织的数据挖掘与知识发现竞赛，该竞赛一年举办一次，是数据挖掘人才的顶级专业盛会。KDD-2019 将于 2019 年 8 月 4 日至 8 月 8 日在美国阿拉斯加州的安克雷奇举行。

KDD-2019：https://www.kdd.org/kdd2019/kdd-cup

VizDoom AI competition(VDAIC)

ViZDoom 是基于 Doom 的 AI 研究平台，通过原始视觉信息进行强化学习。Visual Doom AI 竞赛的参赛者要提交可以玩 Doom 的控制器（C++、Python 或 Java 均可）。

ViZDoom：https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-singleplayer-track-1/leaderboards

结论

尽管这个名单会随着时间推移而有所改变，但你最终会找到自己最感兴趣的比赛。那么，加油吧！

原文链接：https://towardsdatascience.com/top-competitive-data-science-platforms-other-than-kaggle-2995e9dad93c

工程Kaggle数据科学竞赛

相关技术

静止机器人

区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。中本聪在2008年，于《比特币白皮书》中提出“区块链”概念，并在2009年创立了比特币社会网络，开发出第一个区块，即“创世区块”。

来源：维基百科

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看，图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程，即把属于同一区域的像索赋予相同的编号。

来源：百度百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

以太坊技术

以太坊（英文Ethereum）是一个开源的有智能合约功能的公共区块链平台，通过其专用加密货币以太币（Ether）提供去中心化的虚拟机（“以太虚拟机” Ethereum Virtual Machine）来处理点对点合约。以太坊的概念首次在2013至2014年间由程序员Vitalik Buterin受比特币启发后提出，大意为“下一代加密货币与去中心化应用平台”，在2014年通过ICO众筹开始得以发展。

来源：百度百科

图像分类技术

图像分类，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

来源：百度百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

阿里云机构

阿里云创立于2009年，是全球领先的云计算及人工智能科技公司，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力，让计算和人工智能成为普惠科技。阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业，包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户，以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中，阿里云保持着良好的运行纪录。阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。 2014年，阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击，峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中，阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015，阿里云利用自研的分布式计算平台ODPS，377秒完成100TB数据排序，刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日，2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r