机器学习模型评估与选择

基本概念:

错误率:分类错误的样本数占样本总数的比例。即如果在m个样本中有a个样本分类错误,则错误率E=a/m

精度:精度=1-错误率,即1-a/m

误差:学习器的实际预测输出与样本的真实输出之间的差异

训练误差/经验误差:学习器在训练集上的误差

泛化误差:在新样本上的误差

过拟合:学习器由于学习能力过于强大,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质。如学习器在辨别树叶的时候,使用训练集是有锯齿的树叶,“过拟合”是学习器误认为树叶必须有锯齿(锯齿是训练集自身的特点,并非所有树叶都有的特点),导致学习器分辨出错。过拟合是无法彻底避免的,只能“缓解”。

欠拟合:通常是由学习能力低下造成的。如认为绿色的东西都是树叶。欠拟合比较容易克服,例如可以在决策树学习中扩展分支、在神经网络学习中增加训练轮数等。

评估方法:

1. 留出法

2. 交叉验证法

3. 自助法

方法选择:

自助法在数据集较小、难以有效划分训练/训练集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。因此,在初始数据量足够时,留出法和交叉验证法更常用一些。


在研究对比不同算法的泛化性能时,我们用测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参。

回归任务最常用的性能度量是“均方误差”。

查准率亦称“准确率”,查全率亦称“召回率”。

以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”,显示该曲线的图称为“P-R图”。

“平衡点”(Break-Event Point,简称BEP)可用来在P-R图上度量不同P-R曲线的性能,是“查准率=查全率”时的取值。

进行学习器的比较时,与P-R图相似,若一个学习器的ROC曲线北另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣。此时如果一定要进行比较,则较为合理的判据是比较ROC曲线下的面积,即AUC(Area Under ROC Curve)。形式化地看,AUC考虑的是样本预测的排序质量,因此它与排序误差有紧密联系。

一般情况下,重要的是代价比值而非绝对值,例如5:1与50:10所起效果相当。

在非均等代价下,我们所希望的不再是简单地最小化错误次数,而是希望最小化“总体代价”(total cost)。

“规范化”(normalization)是将不同变化范围的值映射到相同的固定范围中,常见的是[0,1],此时亦称“归一化”。

统计假设检验(hypothesis test)为我们进行学习器性能比较提供了重要依据。基于假设检验结果我们可推断出,若在测试集上观察到学习器A比B好,则A的泛化性能是否在统计意义上优于B,以及这结论的把握有多大。

交叉验证t检验的基本思想是若两个学习器的性能相同,则它们使用相同的训练/测试集得到的测试错误率应相同。

欲进行有效的假设检验,一个重要前提是测试错误率均为泛化错误率的独立采样。然而,通常情况下由于样本有限,在使用交叉验证等实验估计方法时,不同轮次的训练集会有一定程度的重叠,这就使得测试错误率实际上并不独立,会导致过高估计假设成立的概率。为缓解这一问题,可采用5 x 2交叉验证。

若“所有算法的性能相同”这个假设被拒绝,则说明算法的性能显著不同。这时需进行“后续检验”(post-hoc test)来进一步区分各算法。常用的有Nemenyi后续检验。


也就是说,泛化误差可分解为偏差、方差与噪声之和。


回顾偏差、方差、噪声的含义:

偏差,度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;

方差,度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;

噪声,则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。

偏差-方差分解说明,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小。一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境(bias-variance dilemma)

给定学习任务,假定我们能控制学习算法的训练程度,则在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;

随着训练程度的加深,学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导了泛化错误率;

在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容