过拟合的原因
- 数据方面,比如数据不规范,数据量少,还有可能是数据穿越(统计特征用到了未来的信息或者标签信息);
- 算法方面,模型过于复杂;
防止过拟合方法
- 进行数据规范化,处理缺失值,减少特征,增加数据量,也可以添加噪声数据;
- 模型的话,可以加正则化,交叉验证,模型融合。也可以设置一个参数,使得模型变得简单。
- 线性回归,logistic回归:减少特征,设置正则项;
- SVM:引入松弛变量,调节惩罚因子C(越大越容易过拟合);
- xgboost(GBDT)的 early stoping(GBDT无),迭代次数,树的深度,增大学习率,限制叶子节点最少样本数,限制叶子节点数等;