方差bias与偏差variance--过拟合欠拟合

E{1/m(x1+x2+...+xn)] = E(X)

var{1/m(x1+x2+...+xn)} = 1/mVar(X)

如果均值为E(x)，方差过大说明欠拟合，只要做无数次，能保证均值（无偏），方差减小

总结

低Bias表示离圆心近

高Bias表示里圆心远

高var表示学习结果分散

低var表示学习结果集中

Bias越低模型越复杂，可以理解为在训练集上的表现与训练值很接近，容易过拟合

variance是在测试集上的表现反之要提高泛化能力，就要降低variance，这样模型就会简单，容易欠拟合

因此，我们想要找到低bias（可以想成是残差很小）和高variance（稳定，泛化能力高）的交叉点就是总误差最小

Bagging能够减少训练方差（variance），对于不剪枝的决策树、神经网络学习器有良好的集成效果，增加稳定性

Boosting能减少偏差（Bias），能够基于泛化能力较弱的学习器构造强学习器，提高正确率

---原因

1. 变量少

2. 特征多

3. 函数过于复杂

处理方法：

1. 降维

2.正则化

除了GBDT中使用关于分类器的一阶导数进行学习之外，也可以借鉴（逆）牛顿的思路使用二阶导数学习弱分类器，比如XGboost

最后编辑于：2017.12.10 00:13:28

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。