1、经验误差与过拟合
通常我们把分类错误的样本数占样本总数的比例称为"错误率”,学习器在训练集上的误差称为“经验误差”或“训练误差”,在新样本上的误差称为“泛化误差”。我们需要的是泛化误差低的学习器,但是我们只能习得一个经验误差很小、在训练集上表现很好的学习器。然而,如果学习器把训练样本的自身的一些特点当做了所有潜在样本都具有的一般性质,会导致泛化性能下降,这称为“过拟合”,相对的“欠拟合”是指对样本的一般性质未学好。
过拟合通常是由于学习能力过于强大,而欠拟合则相反。不过欠拟合比较容易客服,但是过拟合就很麻烦。过拟合是无法彻底避免的,能做的只有在一些算法中进行相关的“缓解”操作。
2、评估方法
通常我们通过实验测试对学习器的泛化误差进行评估并进而做出选择,因此需要一个“测试集”,以测试集上的“测试误差”作为泛化误差的近似值。所以我们假设测试样本也是从样本真实分布中独立同分布采样而得,需要注意的是测试集要尽可能与训练集互斥。
交叉验证法,把数据集分成k个大小相似的互斥子集,每个子集尽可能数据分布一致。然后每次把k-1个子集当成训练集,剩下一个当成测试集,从而可以进行k次训练和测试,最终返回k次结果的均值。k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值。常见的有10次10折交叉验证。