周志华《机器学习》之三:模型评估

评估方法

所谓的评估方法,可以看做是如何分配已有的数据,去训练和测试模型。书中介绍了三种主要的评估方法,分别为留出法交叉验证法自助法(bootstrap)。

留出法就是将数据分为两部分,分别拿来训练和测试,通常是七三开。可以随机划分若干次,取每次结果的平均;

交叉验证将数据分为k部分,其中k-1部分训练,剩余一部分测试,这样重复k次,保证每一小部分都测试过一遍,也是取结果的平均。在样本量较小时,可以让k等于样本量,于是变为所谓的留一交叉验证;

bootstrap法对样本有放回的抽样,先获得和原样本量一样大的样本集用于训练,再用未被抽到的样本测试(原样本中约有36.8%的样本未被抽到)。要注意bootstrap法改变了数据分布形态,会带来误差,因此样本量足够时常用留出法和交叉验证法。甚至在样本量很大时,单一次留出法的评估结果就非常接近模型真实参数了。

通过评估确定算法以及算法的参数后,需要用所有数据重新训练一下模型,这个模型就是最终版本。(这一部分其实困扰我很久,就是我们在评估模型时,每次训练模型参数都是不一样的,虽然用平均正确率等指标作为整体评价,但参数选择哪次训练数据的?还是说取参数的平均?看了书中调参这部分后终于明白了,其实是没分清算法的参数和模型的参数这两个概念。首先我们要确定算法,比如是用逻辑回归还是SVM;然后确定算法的参数,比如逻辑回归是用几次方程,SVM选择哪种核函数;明确的算法和参数就是一个模型,比如我们可以获得逻辑回归一次方程模型、二次模型等等。再通过评估方法评价每种模型的表现结果,选择表现最好的模型;最后将所有数据都放到模型中训练,得到最终的模型的参数。)

性能度量

明确评估方法后,接下来就要确定根据哪些指标度量评估方法的结果(对评估方法结果的评估)。回归任务常用“均方误差”,不必多言;分类任务常用三种度量手段:错误率与精度查准率、查全率与F1ROC与AUC

错误率与精度就是计算一下分类错误与正确的样本所占比例,最简单直观,但挖掘的还不够深;

查准率(precision,等同于阳性预测值)、查全率(recall,等同于敏感度)分别代表模型标记阳性中真阳性的比例,以及模型能够标记出的真阳性占所有真阳性的比例。F1指标是综合查准率和查全率的度量指标,F1 = 2 * P * R / (P + R),P为查准率,R为查全率。以查全率为横轴、差准率为纵轴可以画出P-R曲线。根据我们对准确率和查全率重视程度的不同,还可以规定F1的系数,使重视程度可以从F1中体现(此时应为F1的一般形式),具体系数用到时再翻书;

ROC比较熟悉了,P-R曲线其实也类似,都有对敏感度的度量,只不过ROC还关注假阳性率,P-R则关注阳性预测值。ROC和P-R都可以算曲线下面积,P-R的F1指标可以类比ROC的约登指数。我认为一般用ROC就够了。

代价曲线可以反映模型的期望总体代价,每一条ROC曲线对应一条代价曲线。代价曲线的具体意义和价值还不是很明白,以后用到时再来研究补充。

比较检验

这一部分其实就是对性能度量指标做统计检验,从而得出统计结论。比如单样本T检验,比较指标是否与设定值有显著差异;配对T检验(交叉验证T检验)、配对卡方检验(McNemar检验)比较不同算法在相同数据集上结果是否有显著差异;Friedman检验比较多个算法,再用Nemenyi进行事后检验。

整体来看模型的评估是自上而下的系统的过程。大前提是选择合适的算法及参数,再根据数据情况,选择合适的划分方法;接下来明确性能度量指标,通过重复的训练与测试,获得当前算法参数下模型的一组度量指标;最后对不同模型的度量指标进行统计检验,得出结论,即哪种算法参数下的模型更好。

偏差与方差

模型的推广能力,即泛化性能,有很多影响因素。归纳起来主要有三点:一是算法本身的拟合能力。比如选择的算法可能过于简单,无论怎么调参都无法抓住数据内部规律;二是算法对数据的拟合程度。比如算法本身合格,但选择参数过于捕捉或疏于捕捉训练数据的细节,也导致在新样本上效果不好;三是问题本身的难度,即无论任何算法都无法企及的与真实结果的差距。

泛化误差可以评价泛化性能,由偏差、方差和噪声组成。噪声反映了问题本身的难度,如同随机扰动般无法优化;偏差是通过某一训练集确定了模型后,训练集在该模型下的期望输出与真实标记的差别,反映了算法本身的拟合能力;方差是某一训练集确定了模型后,另一个训练集在该模型下的输出与训练集的标记之间的差别,反映了数据扰动的影响。

随着模型训练程度的加深,即对训练数据拟合的越来越优,偏差会越来越小;同时对应的方差有一个先减小后增大的过程,即模型由欠拟合逐渐到合适的拟合再逐渐过拟合。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容