1. 前言
特征 = 数据中抽取出来对结果预测有用的信息
2. 数据与特征处理
2.1 数据采集

Paste_Image.png
2.2 数据格式化

Paste_Image.png
2.3 数据清洗

Paste_Image.png
2.4 数据清洗实例

Paste_Image.png
2.5 数据采样

Paste_Image.png
2.6 正负样本不均衡

Paste_Image.png
2.7 特征处理

Paste_Image.png
2.7.1 数值型

Paste_Image.png

Paste_Image.png

Paste_Image.png

Paste_Image.png
2.7.2 类别型

2.7.2.1.png
one-hot 解决了均等性

2.7.2.2.png

2.7.2.3.png

2.7.2.4.png
bucket代表不同的主题

2.7.2.5.png
性别和爱好的交叉关系
2.7.3 时间型

2.7.3.1

2.7.3.2

2.7.3.3
2.7.4 文本型

2.7.4.1.png

2.7.4.2
n-gram 把几个词组合在一起

2.7.4.3
word2vec
2.7.5 统计特征

2.7.5.1

2.7.5.2

2.7.5.3
2.7.6 组合特征

2.7.6.1

GBDT
3.特征的处理
3.1 特征的选择

3.1.1
3.2 特征选择的方式

过滤型

过滤型python包

包裹型

包裹型python包

嵌入型

嵌入型python包
3.模型选择

模型选择