一、方差、偏差与欠拟合、过拟合概念
1.方差:描述模型对于给定值的输出稳定性.。(强调个体结果与个体期望的远近)
2.偏差:描述模型输出结果的期望与样本真实结果的差距。(强调整体结果与期望的远近 )
3.欠拟合:模型不够复杂或者训练数据过少时,模型均无法捕捉训练数据的基本(或者内在)关 系,会出现偏差。这样一来,模型一直会错误地预测数据,从而导致准确率降低。 这种现象称之为模型欠拟合。
4.过拟合:模型过于复杂或者没有足够的数据支持模型的训练时,模型含有训练集的特有信 息,对训练集过于依赖,即模型会对训练集高度敏感,这种现象称之为模型过拟合。
注:高方差->过拟合;高偏差->欠拟合
二、类比靶向图
左上角表示(低偏差,低方差),这是最理想的状况;
右上角表示(低偏差,高方差),低偏差导致预测结果与真实结果很近,高方差导致个体预测结果不稳定,比较不集中;
左下角表示(高偏差,低方差),高偏差导致预测结果与真实结果很远,低方差导致个体预测结果稳定,比较集中;
右下角表示(高偏差,高方差),高偏差导致预测结果与真实结果很远,高方差导致个体预测结果不稳定,比较不集中;
三、学习曲线
左上角是最优情况,随着样本的增加,train error虽然有一定的增加吗,但是 test error却有很明显的降低;
右上角是最差情况,train error很大,模型并没有从特征中学习到什么,导致test error非常大,模型几乎无法预测数据,需要去寻找数据本身和训练阶段的原因;
左下角是high variance的情况,train error虽然较低,但是模型产生了过拟合,缺乏泛化能力,导致test error很高;
右下角是high bias的情况,train error很高,这时需要去调整模型的参数,减小train error。