方差bias与偏差variance--过拟合欠拟合

E{1/m(x1+x2+...+xn)] = E(X)

var{1/m(x1+x2+...+xn)} = 1/mVar(X)

如果均值为E(x),方差过大说明欠拟合,只要做无数次,能保证均值(无偏),方差减小

总结

低Bias表示离圆心近

高Bias表示里圆心远

高var表示学习结果分散

低var表示学习结果集中

Bias越低模型越复杂,可以理解为在训练集上的表现与训练值很接近,容易过拟合

variance是在测试集上的表现反之要提高泛化能力,就要降低variance,这样模型就会简单,容易欠拟合

因此,我们想要找到低bias(可以想成是残差很小)高variance(稳定,泛化能力高)的交叉点就是总误差最小


Bagging能够减少训练方差(variance),对于不剪枝的决策树、神经网络学习器有良好的集成效果,增加稳定性

Boosting能减少偏差(Bias),能够基于泛化能力较弱的学习器构造强学习器,提高正确率


---原因

1. 变量少

2. 特征多

3. 函数过于复杂

处理方法:

1. 降维

2.正则化

除了GBDT中使用关于分类器的一阶导数进行学习之外,也可以借鉴(逆)牛顿的思路使用二阶导数学习弱分类器,比如XGboost

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容