大数据竞赛平台——Kaggle入门

 在学习了一些数据挖掘和机器学习的算法之后,需要积累实际开发经验。在实践的过程中不仅需要自己摸索,还需要向牛人学习和请教。Kaggle就提供这样的数据平台,企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,开发者其数据下载到本地,分析,处理后将结果上传,Kaggle将结果排名显示,有的比赛设有资金。Kaggle还有活跃的讨论区,供大家交流。

如何使用Kaggle

 我们先来看看,Kaggle的具体使用方法。在竞赛界面中https://www.kaggle.com/competitions,可看到比赛分类:Getting Start,Playground,Featured,Research等(用不同颜色区分).建议初学者从Getting Start级别开始,在这个级别上可以看到更多的教程和代码分享,题目也比较简单,适合入门.

competitions

 以参赛队最多的Tinanic沉船问题为例.https://www.kaggle.com/c/titanic.它的目标是预测乘客是否幸存.

Titanic

 界面中提供了问题描述(Overview),数据下载(Data),示例代码(Kernels),讨论区(Discussion),排行榜(Leaderboard),和规则(Rules).

 数据一般是csv格式,它提供了含用条件和结果是训练样本(train.csv),只有条件没有结果的测试样本(test.csv),开发者用训练样本训练出模型,并对测试样本进行预测,预测的结果根据格式要求(gender_submission.csv)保存成文件,上传到Kaggle网站,网站给预测结果评分并排名。

 Kernels中有开发者共享的解题思路和代码,大多数是用Python或R语言实现的。

Kernels

 例如Omar El Gabry的A Journey through Titanic就是一个很好教程,它包含了读取数据,处理数据,导出结果的整个过程。用seaborn库图形化分析各个属性(见下图),使用sklearn库作为数据挖掘工具。其中有对数值类属性均值和标准差的计算,对枚举类属性的拆分/组合,处理各种缺失值,以及用人类常识调整特征,比如将父母兄弟配偶统一归入家庭关系,将16岁以下的男女统一归类为儿童等等,还计算了每个属性和结果的相关系数,是一个非常好的特征工程入门范例。在算法方面,它使用了sklearn提供的逻辑回归,SVM,随机森林,最近邻,朴素贝叶斯等方法训练。

seaborn

 训练之后开发者可通过Submit Predictions上传自己的预测结果(注意Submit Predictions按钮登录后才显示),就可以看到排名了。
这里提供了大量的数据,我们可以借此尝试求解各种类型的问题,同时参考他人的经验分享,快速提高实践能力。当再拿到一份新数据时,至少有一个思路。

为什么用Kaggle

 在网上看过一篇文章,题目大概是《Kaggle对找工作有什么好处》,其中的答案是“没有”,因为初学者很难在Kaggle中拿到名次,参与程度可深可浅,无法通过它判断你的水平。我觉得Kaggle不是一个贴标签的东西,可以把它作为练习的场地,以及和高手学习机会。

 我们之前看到的书基本都是一个算法,一个算法的讲,当学习了一些算法之后,它们是零散的点,需要在用的过程中把这些点串起来,具体应用中有很多坑,需要自己踩一遍,和照着书打代码是完全不同的,而Kaggle正好给我们提供了这样的数据和评价体系。

 有人说,那我也可以自己拿爬虫抓数据啊,而且我可以找我更有兴趣的数据来做.对于自己找的数据,当对预测结果满意的时候,很难判断到底是数据本身的信息量不够,还是算法不好.Kaggle上是很多人同时比赛,只要拿自己的成绩和Top1的比一比,就能判断是什么问题了,而且很多人会在Kernels中公布算法,在Discussion中讨论,我们也可以在其中提出自己的问题。最重要的是这个过程中,你和他们在思考同一个问题,这种学习即不是填压式的,又可以给你引导。如果能够做到排名靠前就更好了。

Kaggle遇到的问题

 使用Kaggle中遇到的最大问题连不上外网,比如:注册后,在邮箱中点击激活时,出现"You did not enter the correct captcha response. Please try again",这是由于连接google失败导致的。不过只有在注册,下载,上传文件时需要连接外网。

 现在访问外网越来越难了,建议买一些收费的流量(注册激活用不了一两兆),有的工具第一次注册会送你几百兆流量.比较麻烦的是Kaggle的数据都是存在google storage上的,所以下数据时也要连外网.不过像上例中的纯文本数据,也用不了几百K.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容