Kaggle过程概要

kaggle 比赛的基本流程

先对比赛的基本流程进行简述,然后再根据具体步骤进行仔细学习,顺便把PUBG那个做了,数据分析和机器学习方面就算是不用再准备别的比赛或者信息了(Challenge AI那个算CV的)。

1 Data Exploration

首先是要进行EDA(Exploratory Data Analysis),对数据进行探索性的分析,从而为之后的处理和建模提供分析。

1.1 Visualization

1.2 Statistical Tests

2 Data Preprocessing

2.1 Outlier

2.2 Dummy Variables

3 Feature Engineering

Kaggle 比赛是 “Feature 为主,调参和 Ensemble 为辅”,我觉得很有道理。Feature Engineering 能做到什么程度,取决于对数据领域的了解程度。比如在数据包含大量文本的比赛中,常用的 NLP 特征就是必须的。怎么构造有用的 Feature,是一个不断学习和提高的过程。

一般来说,当一个变量从直觉上来说对所要完成的目标有帮助,就可以将其作为 Feature。至于它是否有效,最简单的方式就是通过图表来直观感受。

3.1 Feature Selection

3.2 Feature Encoding

4 Model Selection

4.1 Model Training

4.2 Cross Validation

5. Ensemble Generation

5.1 Stacking

6 Pipeline

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • [TOC] About Trs 只是阅读过程中对其中一些进行注脚而已,更确切的内容还是英文原文来的清晰,有些翻译反...
    mrlevo520阅读 4,962评论 0 0
  • 今日有几事 1,宝宝只是病了一天,但是感觉自己一直没调整过精神,一直犯困中。中午没有吃饭,和宝宝两个人一直睡。我到...
    大果果ly阅读 1,352评论 0 0
  • 失眠,将黑夜揉碎成几段, 一段给了回忆, 记不起最后一次的单纯在何时, 或许那时只是傻傻, 身影向后退却变得依稀,...
    阿伊兰香阅读 1,696评论 0 2
  • 传统的二十四节气,我们大多已经是知其然而不知其所以然了。记得小时候对于二十四节气的唯一印象就是我们需要背一个...
    漩月阅读 4,476评论 7 0
  • 昨天的开发者大会中,一个参会者问了一下圆桌会议上所有嘉宾一个问题: 如果用两个词两总结一下你的2017,你会用哪两...
    黑土钱阅读 1,111评论 0 0