考虑一对分类模型Ma和Mb。假设Ma在包含30个记录的检验集上的准确率达到85%,而Mb在包含5000个记录的不同检验集上达到75%的准确率。根据这些信息,Ma比Mb好码?
(1)Ma的置信程度有多高?
(2)可以把准确率的差解释成检验集的复合的变差码?
1.估计准确率的置信区间
为确定置信区间,需要建立支配准确率度量的概率分布。通过将分类任务用二项式实验建模来推导置信区间。二项式实验的特性如下:
(1实验由N个独立的试验组成,其中每个试验有两种可的结果:成功与失败
(2每个试验成功的概率p是常数。
二项式实验的一个例子是统计N次抛硬币正面朝上的次数。如果X是N次实验观察的成功次数,则X取一个特定值v的概率由均值Np、方差为Np(1-p)的二项分布给出:
预测检验记录类标号的任务也可以看作是二项式实验。给定一个包含N个记录的检验集,令X是被模型正确预测的记录数,p是模型真正准确率。通过把预测任务用二项式实验建模,X服从均值为Np,方差为Np(1-p)的二项分布。可以证明经验准确率acc=X/N也是均值为p,方差为Np(1-p)/N的二项分布。尽管可以用二项分布来估计acc的置信区间,但是当N充分大时,通常用正态分布来近似。根据正态分布,可以推导出acc的置信区间为
因为标准正态分布关于Z=0对称,于是我们有=。重新整理不等式,得到p的置信区间如下:
考虑一个模型,它在100个检验记录上具有80%的准确率。在95%的置信水平下,模型的真实准确率的置信区间是什么?95%的置信水平对应于=1.96。将它代入公式(4-13)得到置信区间在71.1%和86.7%之间。下表给出了随着记录数N的增大所产生的置信区间
2.比较两个模型的性能
考虑一对模型M1和M2,它们在两个独立的检验集D1和D2上进行评估,令n1是D1中的记录数,n2是D2中的记录数。另外,假设M1在D1上的错误率为e1,M2在D2上的错误率为e2,目标是检验e1与e2的观察差是否是统计显著的。假设n1和n2都充分大,e1和e2可以使用正态分布来近似。如果用d=e1-e2表示错误率的观测差,则d服从均值为dt(其实际差)、方差为的正态分布。d的方差为:
最后在置信水平(1-α)%下,可以证明实际差dt的置信区间由下式给出:
考虑开始所描述的问题。模型Ma在N1=30个检验记录上的错误率e2=0.15,而Mb在N2=5000个检验记录上的错误率e2=0.25。错误率的观察差d=|0.15-0.25|=0.1.在这个例子中,我们使用双侧检验来检查dt=0还是dt≠0。错误率观察差的估计方差计算如下:
3.比较两种分类法的性能
假设我们想用k折交叉验证的方法比较两种分类法的性能。首先,把数据集D划分为k个大小相等部分,然后,使用每种分类法,在k-1份数据上构建模型,并在剩余的划分上进行检验,这个步骤重复k次,每次使用不同的划分进行检验。
令Mij表示分类技术Li在第j次送代产生的模型,注意,每对模型M1j和M2j在相同的划分j上进行检验。用e1j和e2j分别表示它们的错误率,它们在第j折上的错误率之差可以记作d=e1j-e2j。如果k充分大,则d服从于均值为(错误率的真实差)、方差为的正态分布。与前面的方法不同,观察的差的总方差用下式进行估计: