参考资料:
Understanding the Bias-Variance Tradeoff
李宏毅机器学习视频 5.2 Where does the error come from(Av10590361,P5).Flv
以下讨论的假设是基于
1、存在理想分类器。
2、验证集和测试集的分布相同。
描述领域:model prediction
bias:预测模型跟真实模型之间的差距,bias比较大,说明比较少关注训练数据和简化了模型,会在训练数据和测试数据上都产生很大的错误。
-
variance:特定数据对模型的影响程度,variance比较大,说明用户比较关注训练数据,但是泛化能力比较弱。在训练数据上比较差别小,测试数据上差别大。非常准确,但是对训练数据的噪声比较敏感。
为什么需要平衡Bias、Variance?
模型简单就会不准确,对噪声也不敏感。
模型复杂就会准确,但是对无法抵御噪声的影响,太准确了也不行。-
Total error:
Irreducible error:数据噪声带来的,噪声是不可消除的。
-
怎么诊断和解决
如果连训练数据都无法fit——underfit,就是bias的问题
-
emsemble可以表现更好
我们知道复杂的模型中Variance是比较大的,模型受训练数据的影响比较大,因此emsemble可以集合多个模型进行平均得到一个Variance更小的模型。