除了大名鼎鼎的 kaggle,,數(shù)據(jù)科學(xué)家可以參加的數(shù)據(jù)競(jìng)賽平臺(tái)其實(shí)還蠻多的。有些比賽平臺(tái)不僅提供比賽,,還讓你有機(jī)會(huì)自己創(chuàng)辦比賽。有些比賽由公司贊助,,有些由政府機(jī)構(gòu)贊助,。參加這些比賽不僅能讓你的能力獲得認(rèn)可,還可以獲得一些不菲的獎(jiǎng)金呢~
在聽(tīng)了上百節(jié)慕課(MOOC),、看了上千本書(shū)和筆記,、聆聽(tīng)了上百萬(wàn)人對(duì)數(shù)據(jù)科學(xué)的看法后,你會(huì)做什么呢,?你要開(kāi)始應(yīng)用這些概念啦,。應(yīng)用機(jī)器學(xué)習(xí)概念的唯一方法就是親自動(dòng)手。你可以在感興趣的領(lǐng)域選一些現(xiàn)實(shí)問(wèn)題,,也可以參加編程馬拉松(Hackathon)和機(jī)器學(xué)習(xí)競(jìng)賽,。
數(shù)據(jù)科學(xué)比賽不僅是算法的應(yīng)用。從本質(zhì)上講算法是一種工具,,任何人都可以寫(xiě)幾行代碼來(lái)使用它,。參加這些比賽的主要原因是它們能提供很好的學(xué)習(xí)機(jī)會(huì),。當(dāng)然,競(jìng)賽中的問(wèn)題和現(xiàn)實(shí)問(wèn)題不一定一樣,,但這些平臺(tái)可以讓你將學(xué)到的知識(shí)付諸實(shí)踐,,還能讓你了解自己和他人的差距。
參加數(shù)據(jù)科學(xué)比賽的好處
參加這些比賽可以說(shuō)是有百利而無(wú)一害,。它里里外外的好處有很多,,比如:
這是一個(gè)學(xué)習(xí)的好機(jī)會(huì);
可以接觸當(dāng)前最佳的方法和數(shù)據(jù)集,;
可以和志同道合的人交往,,團(tuán)隊(duì)合作很棒的地方在于可以從不同角度思考問(wèn)題;
可以向世界展現(xiàn)你的才華,,從而獲得更好的就職機(jī)會(huì),;
參與并了解自己在排行榜上的表現(xiàn)也很好玩;
還有獎(jiǎng)品作為額外福利,,但不應(yīng)把它作為唯一的標(biāo)準(zhǔn),。
2009 年 9 月 18 日,BellKor Pragmatic Chaos 團(tuán)隊(duì)在決賽中獲勝,,正式贏得 NetFlix 的比賽,。
Kaggle 是很有名的數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)。這個(gè)在線社區(qū)有 10 萬(wàn)多注冊(cè)用戶,,這些用戶有新手也有專(zhuān)家,。但除了 Kaggle,,還有一些其它值得了解和研究的數(shù)據(jù)挖掘競(jìng)賽平臺(tái),。
Driven Data
Driven Data 舉辦數(shù)據(jù)科學(xué)競(jìng)賽的目的是要建設(shè)更美好的世界,用最先進(jìn)的預(yù)測(cè)模型來(lái)解決世界上最棘手的問(wèn)題,。Driven Data 在國(guó)際發(fā)展,、醫(yī)療、教育,、研究和保護(hù)以及公共服務(wù)等領(lǐng)域舉辦數(shù)據(jù)科學(xué)競(jìng)賽,,以謀求社會(huì)利益。你既可以參加平臺(tái)上的競(jìng)賽,,也可以通過(guò)該平臺(tái)舉辦自己的競(jìng)賽,。
該網(wǎng)站有專(zhuān)門(mén)的示例項(xiàng)目部分,這部分以案例研究的形式展示了一些成功的項(xiàng)目,。Driven Data 列出的數(shù)據(jù)集都與一些非營(yíng)利組織相關(guān),,數(shù)據(jù)從野生動(dòng)物保護(hù)到公共衛(wèi)生都有。因此,,如果你想將自己的技能應(yīng)用于實(shí)際問(wèn)題,,那這個(gè)平臺(tái)簡(jiǎn)直就是為你而建的,。
Driven Data:https://www.drivendata.org/
參加比賽:https://www.drivendata.org/competitions/
組織比賽:https://www.drivendata.org/partners/
示例項(xiàng)目:http://drivendata.co/projects.html
CrowdANALYTIX
CrowdANALYTIX 是一個(gè)眾包分析平臺(tái),該平臺(tái)將商業(yè)上的挑戰(zhàn)和問(wèn)題轉(zhuǎn)換成競(jìng)賽題目,。CroudANALYTIX 社區(qū)通過(guò)合作與競(jìng)爭(zhēng)的方式來(lái)構(gòu)建和優(yōu)化 AI,、ML、NLP 和 深度學(xué)習(xí)算法,。該平臺(tái)還有社區(qū)博客,,其中有包括訪談和參考資料在內(nèi)的大量資源。
CrowdANALYTIX:https://www.crowdanalytix.com/community
Community Blog:https://www.crowdanalytix.com/jq/communityBlog/listBlog.html
Innocentive
InnoCentive 的重點(diǎn)在生命科學(xué)上,,但也有其它有趣的競(jìng)賽主題,。參賽者可以參與解決一些世界上最緊迫的問(wèn)題——從促進(jìn)家用凈水供應(yīng)到旨在吸引和殺死攜帶瘧疾的蚊子的被動(dòng)式太陽(yáng)能裝置。挑戰(zhàn)是真正的問(wèn)題,,它需要持續(xù)集中注意力,、批判性思維、研究,、創(chuàng)造力以及綜合性知識(shí),。開(kāi)發(fā)出解決方案就是最大的獎(jiǎng)勵(lì),在這個(gè)過(guò)程中還可以進(jìn)行無(wú)與倫比的腦力鍛煉,。
InnoCentive:https://www.innocentive.com/our-solvers/
TunedIT
TuneIT 最初是華沙大學(xué)(University of Warsaw)的一個(gè)理科博士項(xiàng)目,,其目的是幫助數(shù)據(jù)挖掘科學(xué)家進(jìn)行可重復(fù)的實(shí)驗(yàn)并輕松評(píng)估數(shù)據(jù)驅(qū)動(dòng)算法。后來(lái)出于教育,、科研以及商業(yè)目的,,補(bǔ)充了用于舉辦數(shù)據(jù)競(jìng)賽的 TunedIT Challenges 平臺(tái)。
TunedIT:http://tunedit.org/
TunedIT Challenges:http://tunedit.org/challenges
Codalab
Codalab 是一個(gè)基于 web 端的開(kāi)源平臺(tái),,平臺(tái)上的研究人員,、開(kāi)發(fā)人員以及數(shù)據(jù)科學(xué)家互相合作,以推進(jìn)使用機(jī)器學(xué)習(xí)和高級(jí)計(jì)算的研究領(lǐng)域的發(fā)展,。CodaLab 通過(guò)其在線社區(qū)解決數(shù)據(jù)導(dǎo)向研究領(lǐng)域的很多常見(jiàn)問(wèn)題,,人們可以在該社區(qū)共享 worksheets 并參與競(jìng)賽。你既可以參加現(xiàn)有競(jìng)賽,,也可以舉辦新的競(jìng)賽,。
CodaLab:https://competitions.codalab.org/
Analytics Vidhya
Analytics Vidhya 除了為分析和數(shù)據(jù)科學(xué)專(zhuān)業(yè)人士提供了基于社區(qū)的知識(shí)門(mén)戶,還提供了大量數(shù)據(jù)科學(xué)的學(xué)習(xí)資源,。該平臺(tái)還會(huì)舉辦編程馬拉松,,通過(guò)競(jìng)賽形式解決真實(shí)的行業(yè)問(wèn)題。你既可以參加競(jìng)賽,,也可以贊助編程馬拉松,。大多數(shù)在 Analytics Vidhya 上組織編程馬拉松的公司,都會(huì)給表現(xiàn)優(yōu)異的參賽者提供很好的工作機(jī)會(huì),。
Analytics Vidhya:https://datahack.analyticsvidhya.com/?utm_source=main-logo
CrowdAI
數(shù)據(jù)科學(xué)挑戰(zhàn)平臺(tái) crowdAI 每年都會(huì)舉辦很多開(kāi)放的數(shù)據(jù)科學(xué)挑戰(zhàn)賽,。這些比賽覆蓋了圖像分類(lèi),、文本識(shí)別、強(qiáng)化學(xué)習(xí),、對(duì)抗攻擊,、圖像分割、資源配置優(yōu)化等多個(gè)領(lǐng)域,。2017 年亞馬遜和英偉達(dá)贊助的競(jìng)賽叫做「Learning to Run」,,獎(jiǎng)金高達(dá) 10 萬(wàn)多美元。
crowdAI:https://www.crowdai.org/challenges
Learning to Run:https://www.crowdai.org/challenges/nips-2017-learning-to-run
Numerai
Numerai 是由眾多數(shù)據(jù)科學(xué)家建立的,、AI 運(yùn)營(yíng)的眾包對(duì)沖基金平臺(tái),。該平臺(tái)每周都會(huì)舉辦數(shù)據(jù)科學(xué)競(jìng)賽以支持真正的對(duì)沖基金。Numerai 每周給參賽者提供加密數(shù)據(jù),,然后參賽者們提交其預(yù)測(cè)值,。之后 Numerai 會(huì)根據(jù)所有提交結(jié)果構(gòu)建元模型,并進(jìn)行投資,。
數(shù)據(jù)科學(xué)家們提交自己的預(yù)測(cè)值來(lái)?yè)Q取一些 Numeraire,,這是一種以太坊區(qū)塊鏈上的加密貨幣。
Numerai:https://numer.ai/rounds
天池
天池是阿里云創(chuàng)建的數(shù)據(jù)競(jìng)賽平臺(tái),,它和 Kaggle 很像,。該社區(qū)中有成千上萬(wàn)互相合作的數(shù)據(jù)科學(xué)家,他們還可以在該平臺(tái)中聯(lián)系全球的企業(yè)和政府,,以解決各行業(yè)中最棘手的問(wèn)題,。
天池:https://tianchi.aliyun.com/competition/gameList/activeList
DataScienceChallenge
Data Science Challenges 是由國(guó)防科學(xué)技術(shù)實(shí)驗(yàn)室(Dstl)以及包括政府科學(xué)辦公室(Government Office for Science)、SIS 和 MI5 在內(nèi)的許多英國(guó)政府部門(mén)共同贊助舉辦的,,旨在鼓勵(lì)數(shù)據(jù)科學(xué)領(lǐng)域的優(yōu)秀人才解決現(xiàn)實(shí)問(wèn)題,。該平臺(tái)提供的兩個(gè)挑戰(zhàn)賽現(xiàn)在已經(jīng)結(jié)束了,但很快就會(huì)出現(xiàn)新的問(wèn)題,,這些比賽將鼓勵(lì)你找出現(xiàn)實(shí)問(wèn)題的非正統(tǒng)答案,。
Data Science Challenges:https://www.datasciencechallenge.org/
此外還有一些每年僅舉辦一次的比賽。
KDD CUP
KDD Cup 是 ACM 的數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)專(zhuān)委會(huì)(SIGKDD)組織的數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)競(jìng)賽,,該競(jìng)賽一年舉辦一次,是數(shù)據(jù)挖掘人才的頂級(jí)專(zhuān)業(yè)盛會(huì),。KDD-2019 將于 2019 年 8 月 4 日至 8 月 8 日在美國(guó)阿拉斯加州的安克雷奇舉行,。
KDD-2019:https://www.kdd.org/kdd2019/kdd-cup
VizDoom AI competition(VDAIC)
ViZDoom 是基于 Doom 的 AI 研究平臺(tái),通過(guò)原始視覺(jué)信息進(jìn)行強(qiáng)化學(xué)習(xí),。Visual Doom AI 競(jìng)賽的參賽者要提交可以玩 Doom 的控制器(C++,、Python 或 Java 均可)。
ViZDoom:https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-singleplayer-track-1/leaderboards
結(jié)論
盡管這個(gè)名單會(huì)隨著時(shí)間推移而有所改變,,但你最終會(huì)找到自己最感興趣的比賽,。那么,,加油吧!