1.经验误差
错误率——是分类错误的样本数占样本总数的比例
经验误差——学习器预测的结果与实际真实结果之间的差异
训练误差——在训练集上预测的结果与训练集的真实结果的差异(经验误差)
泛化误差——在测试集上预测的误差
由于你不知道训练样本是什么样子的,所以我们现在能做到的就是尽量的减少训练误差,但是我们实际想要的是希望在测试样本中表现好的,为了达到这个目的,我们应该尽量的获取训练样本的潜在规律而不是训练样本的所有内容,这样,我们在遇到新样本时,利用这个潜在规律,就可以做出一个预测。例如:小聊子(相当于学习器)想给自己的朋友分个类别,如果,我秉着每个人都是独一无二的这样的政治教课书理论,好的,每一个人都是一个类,然而,这显然是不合理的,这就叫过拟合。若我秉着我的朋友都是善良的熊孩儿,好的,他们都是一个类,这就叫欠拟合。
一个overfitted模型记住太多training data的细节从而降低了generalization的能力。