记忆学习整体流程
- 数据EDA
- 特征工程
- 模型建立,调参CV
- 模型融合(Ensembling)
都是基于特征集的,不关于预测集
描述性统计及相关性分析
- 缺失值info()查看空值/类型
drop NA
但是缺失也是信息
缺失值的填补:例如中值,条件样本均值,联合分布…… - describe()
- 相关性分析
- 数据可视化
(1)for循环
(2)apply/.map apply一般对行或者一列进行输入,map是对每一个格进行操作
train['age'].map(str)
特征工程
CV交叉验证:训练集,测试集。K-fold
5-折:把训练集划分为5份,用1-4训练,预测5,和真实比较,用2-5训练预测1……做5次,评估模型的精度
模型的泛化能力:通过学习更好地预测不知道的东西
模型融合
单模→融合→复模
- bagging
随机分离,思想:三个臭皮匠
投票法voting 100个变量,建立100个决策树(分类器),70个认为会活
概率,一个分类器认为30%会活,一个认为70%,算概率大于50%就活
阈值学习 - boosting(主流,GBDT提升数)
从前一个分类器的失败里学习,在错误里改进 - stacking
把预测的结果当新的特征
用1234训练,clf,预测5,clf1_pre_5……得到5个分类器clf1,2,3,4,5.同时用这五个分类器预测测试集,作为新增的特征
不平衡问题
99个人是好人,一个罪犯
分类器更倾向于它是一个好人,但是目标是检索出坏人
处理方式:过采样,欠采样(取多组,bagging)
enbalanced:smoote