Kaggle

数据预处理:

步骤:

删除不需要的列;填补缺失值;类别特征进行labelencode;连续值进行切分

1.分析数据有哪些是类别型的/哪些是数值型的/哪些是混合数据类型/哪些数据是可能有错误/哪些特征包含空格空值/特征是什么类型的:

类别型中有没有是有序数关系的;数值型数据中是否是连续的或者离散的;混合数据类型中是数值字母和数字混合;如名字里面含有括号等;特征是整型浮点型还是字符串型。

train_df.info()也太好用了吧!告诉你每个特征类型和有多少个值这样就知道缺失的值个数。

train_df.describe()知道数据的信息。

2.分析特征和目标的关系,特征取某个值的时候目标值为1的概率大,针对类别/序数/离散型数据比较有效。

3.连续型数值的话处理使用直方图。使用seaborn中的FacetGrid http://www.pianshen.com/article/5733143837/

4.处理数据

有些数据删除:train_df.drop()默认是不会改变原数据的,对原数据进行重新赋值。别忘了加入combine.

有些string类别数据需要转换为数字:使用dataset[].map(字典)

有些数据有缺失:dataset[].fillna(),删除na的话使用dropna(),同时可以使用某一类数据的特征值填充,找到空的值isnull()

有些连续型数据:分段然后赋值

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容