从宏观上了解机器学习-模型评估与选择3

比较检验

书接上文,我们先使用某种实验评估方法测得学习器的某个性能度量结果,然后对这个结果进行比较,但怎么来做这个比较呢?下面为大家介绍几种常用的机器学习性能比较的方法。为便于讨论,书中此节默认以错误率为性能度量。(不讨论公式或者检验的具体过程,感兴趣的可以去翻书哈!)

对单个学习器泛化性能的假设进行检验

我们可使用二项检验来对泛化错误率是否不大于0.3这样的假设进行检验,很多时候我们并非仅做一次留出法估计,而是通过多次留出法或是交叉验证法等进行多次训练/测试,这样就会得到多个测试错误率,此时可使用t 检验。

对不同学习器的性能比较

k折交叉验证成对t检验

对两个学习器A和B,若我们使用k折交叉验证法分别得到了两组测试错误率,在相同的第i折训练集/测试集上得到的结果,则可用k折交叉验证成对t检验来进行比较检验。这里的基本思想是若两个学习器的性能相同,则他们使用相同的训练/测试集得到的测试错误率应相同。

欲进行有效的假设检验,一个重要的前提是测试错误率均为泛化错误率的独立采样,然鹅,通常情况下,由于样本有限,在使用交叉验证等试验估计方法时,不同轮次的训练集会有一定程度的重叠,这就使得测试错误率实际上并不独立,会导致过高估计假设成立的概率。为缓解这一问题,可采用5 x 2交叉验证法

McNemar检验

对二分类问题,还可获得两学习器分类结果的差别,然后再通过χ^2 检验进行分析

Friedman 检验与 Nemenyi 后续检验

很多时候,我们会在一组数据集上对多个算法进行比较,此时,一种做法是在每个数据集上分别列出两两比较的结果;另一种方法更为直接,即使用基于算法排序的Friedman检验。

若所有算法都相同这个假设被拒绝,则说明算法的性能显著不同,这时需进行后续检验进一步区分个算法,常用的有Nemenyi后续检验

偏差与方差

泛化误差可拆分为偏差、方差与噪声之和。

回顾偏差、方差和噪声的含义:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下届,即刻画了学习问题本身的难度

偏差-方差分解说明,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的,给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使得方差较小,即使得数据扰动产生的影响小。

还需知道的是,偏差与方差是有冲突的,这称为偏差-方差窘境(bias-variance dilemma)。训练不足时,偏差主导了泛化错误率;随着训练程度的加深,方差主导了泛化错误率。在训练程度重组后,若训练数据自身的、非全局的特性被学到了,则将发生过拟合。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351