比较分类器的方法

考虑一对分类模型Ma和Mb。假设Ma在包含30个记录的检验集上的准确率达到85%,而Mb在包含5000个记录的不同检验集上达到75%的准确率。根据这些信息,Ma比Mb好码?

(1)Ma的置信程度有多高?

(2)可以把准确率的差解释成检验集的复合的变差码?

1.估计准确率的置信区间

为确定置信区间,需要建立支配准确率度量的概率分布。通过将分类任务用二项式实验建模来推导置信区间。二项式实验的特性如下:

(1实验由N个独立的试验组成,其中每个试验有两种可的结果:成功与失败

(2每个试验成功的概率p是常数。

二项式实验的一个例子是统计N次抛硬币正面朝上的次数。如果X是N次实验观察的成功次数,则X取一个特定值v的概率由均值Np、方差为Np(1-p)的二项分布给出:

例如,抛一枚硬币,50次中20次正面朝上的概率是P(X=20)=0.0419

预测检验记录类标号的任务也可以看作是二项式实验。给定一个包含N个记录的检验集,令X是被模型正确预测的记录数,p是模型真正准确率。通过把预测任务用二项式实验建模,X服从均值为Np,方差为Np(1-p)的二项分布。可以证明经验准确率acc=X/N也是均值为p,方差为Np(1-p)/N的二项分布。尽管可以用二项分布来估计acc的置信区间,但是当N充分大时,通常用正态分布来近似。根据正态分布,可以推导出acc的置信区间为

其中Z_{\alpha /2} Z_{1-\alpha /2} 分别是在置信水平(1-\alpha )下由标准正态分布得到的上界和下界。

因为标准正态分布关于Z=0对称,于是我们有Z_{\alpha /2} =Z_{1-\alpha /2} 。重新整理不等式,得到p的置信区间如下:

公式(4-13)

考虑一个模型,它在100个检验记录上具有80%的准确率。在95%的置信水平下,模型的真实准确率的置信区间是什么?95%的置信水平对应于Z_{\alpha /2} =1.96。将它代入公式(4-13)得到置信区间在71.1%和86.7%之间。下表给出了随着记录数N的增大所产生的置信区间

随着N的增大,置信区间变得更加紧凑

2.比较两个模型的性能

考虑一对模型M1和M2,它们在两个独立的检验集D1和D2上进行评估,令n1是D1中的记录数,n2是D2中的记录数。另外,假设M1在D1上的错误率为e1,M2在D2上的错误率为e2,目标是检验e1与e2的观察差是否是统计显著的。假设n1和n2都充分大,e1和e2可以使用正态分布来近似。如果用d=e1-e2表示错误率的观测差,则d服从均值为dt(其实际差)、方差为\sigma _{d}^2 的正态分布。d的方差为:

其中e1(1-e1)/n1和e2(1-e2)/n2是差错率的方差。(差错率即错误率)

最后在置信水平(1-α)%下,可以证明实际差dt的置信区间由下式给出:

(4-15)

考虑开始所描述的问题。模型Ma在N1=30个检验记录上的错误率e2=0.15,而Mb在N2=5000个检验记录上的错误率e2=0.25。错误率的观察差d=|0.15-0.25|=0.1.在这个例子中,我们使用双侧检验来检查dt=0还是dt≠0。错误率观察差的估计方差计算如下:

把该值代入公式(4-15),我们得到在95%的置信水平下,d置信区间如下:
由于该区间跨越了值0,我们可以断言在95%的置信水平下,该观察差不是统计显著的。

3.比较两种分类法的性能

假设我们想用k折交叉验证的方法比较两种分类法的性能。首先,把数据集D划分为k个大小相等部分,然后,使用每种分类法,在k-1份数据上构建模型,并在剩余的划分上进行检验,这个步骤重复k次,每次使用不同的划分进行检验。

令Mij表示分类技术Li在第j次送代产生的模型,注意,每对模型M1j和M2j在相同的划分j上进行检验。用e1j和e2j分别表示它们的错误率,它们在第j折上的错误率之差可以记作d=e1j-e2j。如果k充分大,则d服从于均值为d_{t}^(cv) (错误率的真实差)、方差为\sigma ^(cv) 的正态分布。与前面的方法不同,观察的差的总方差用下式进行估计:

其中,\bar{d} 是平均差。对于这个方法,我们需要用t分布计算d_{t}^(cv) 的置信区间:
系数t_{(1-\alpha),k-1 } 可以通过两个参数(置信水平(1-α)和自由度(k-1)查概率表得到。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容

  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,687评论 0 3
  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三章 概率与分布 1、随机抽样 通过sample()来实...
    格式化_001阅读 6,647评论 1 12
  • 结合Scikit-learn介绍几种常用的特征选择方法 作者:Edwin Jarvis 特征选择(排序)对于数据科...
    阿甘run阅读 3,258评论 1 14
  • 1,中位数:按从小到大排列好的中间值 2,众数:出现次数最多的那个数 3,方差:数值和均值的距离的平方数的平均值 ...
    沈婷_bbf1阅读 5,161评论 1 2
  • 每个早晨都是在匆匆忙忙中来上班,孩子放假在家得给她们采购食物,水果,洗衣服之类的事情,不放心她们怎么做菜,还会叮嘱...
    蔷薇_4d42阅读 213评论 1 1