机器学习模型总结 之 模型评估

模型评估


训练集和测试集划分

  • 留出法:直接将数据划分为两个互斥的,注意保持在训练集和测试集要保证数据分布和原始数据集一样,黑白样本等label也要分布一致。一般留2/3到4/5作为训练集。由于划分方式很多,所以可以进行多次划分,多次训练测试,把得到的结果均值作为最终结果。
  • 交叉验证法:将数据集分成k个大小相等,数据分布一致的样本,然后每次取其中一个为测试集,其余为训练集,这样可以得到k次训练和测试结果,所以也叫k折交叉验证法。同样划分方式很多,所以可以进行多次划分,多次训练测试,把得到的结果均值作为最终结果。最终是p次k折交叉验证法。
  • 自助法:采取多次随机从数据集抽取样本放到训练集,然后又把样本放回。重复m次之后,就有约36.8%的样本不在训练集里面。然后我们这些不在训练集的样本拿来做测试集,这样出来的评估结果,叫“包外估计”。

该如何选用划分方式呢?
自助法优点是可以从小数据集产生无限的样本,所以在数据集比较小的时候特别有效,但由于自助法是使用随机抽取的方式,假设了每个样本在空间出现的概率是一样的,这改变了原始数据集的分布,会引入估计偏差。通常应该考虑留出法和交叉验证法。

模型泛化能力评估

回归任务常用的是均方误差(预测值和真实值的差的平方/样本数),更一般的公式,可以用数据分布和概率密度函数表示,使用积分评估。

分类任务评估

  • 错误率:分类错误的样本数/样本数
  • 精度:分类正确的样本数/样本数
  • 查准率P(准确率):正正/(正正+反正),第一正反表示真实情况,第二个正反表示预测情况。
  • 查全率R(覆盖率,召回率):正正/(正正+正反),不依赖样本正反比例
  • 误伤率:反正/(反正+反反),不依赖样本正反比例
  • P-R曲线:一般来说查准率和查全率是矛盾的曲线,以查全率为x轴,查准率为y轴,做出来的曲线。一般来说被包住的曲线要劣于包住的曲线。但有一个平衡点可以作为衡量标准,叫BEP。
  • F1度量:基于查准率P和查全率R的调和平均,1/F1=(1/2)(1/P+1/R),更一般是公式是:1/F=(1/(1+w2))(1/P+w2/R),w=1就是F1,w>1查全率有更大影响,w<1查准率有更大影响。

由于多次输入样本评估,我们对模型评估多次,得到可能是多个二分类混淆矩阵,这种情况我们改如何评估?

  • 宏:先对每个评估结果算出查全率,查准率,F1等,然后再取结果的均值,
  • 微:对混淆矩阵的对应元素进行取均值,再算查全率,查准率,F1。

回归分类
先对样本评估的结果进行排序,然后选择一个截断点作为黑白分割点。

  • 真正率:正正/(正正+正反)
  • 假正率:反正/(反反+反正)
  • ROC:以每个截断点结果做成一个平面点,以误伤率为x轴,以查全率为y轴。一般来说被包住的曲线要劣于包住的曲线。不然就以AUC评估。
  • AUC:为ROC曲线下面的面积,AUC考虑的是样本排序的质量,因此它与排序误差有关系,也就是模型对样本的预估结果导致了样本发生了排序。AUC就是来评估这种结果的指标。

有错误代价的情况(加上cost计算,todo):
为衡量不同的错误对结果影响的不同,我们会对不同类型错误赋予不同代价。

  • 代价敏感错误率
  • 代价敏感曲线

模型比较检验(todo)

统计检验假设,若在测试集上学习器A优于B,则在统计意义上A的泛化是否就好过B,这种优的程度有多大,就需要用统计检验假设来评估。

  • 假设检验
  • 交叉验证t检验
  • McNemar检验
  • Friedman检验
  • Nemenyi后续检验

偏差和方差

泛化误差是偏差,方差,噪声之和

假设:对于样本x,yD为x在数据集中的标记,y为x的真实标记,f为模型的预测输出,模型的期望输出是o。

那么什么叫期望输出?
期望输出是在数据集真实分布下,模型训练后,预测x样本应该输出的值。但在不同训练集训练出来的模型,x的预测输出可能都不一样。

  • 方差:f与o的差值的平方,表示的是模型本身使用了同样的大小的训练集变动导致学习性能的变化,从而产生的误差。刻画了数据扰动所造成的影响。
  • 噪声:yD与y的差值的平方,表示数据集本身和真实情况的误差。表达了在当前任务上使用该数据集的任何学习算法所能达到的期望泛化误差下界,刻画了学习问题本身的难度。
  • 偏差:o与y的差值的平方,表示学习算法期望预期理论的输出和真实结果的误差。刻画了学习算法本身的拟合能力。

偏差-方差窘境

在给定数据集和任务情况下,我们能做的就是减少偏差:充分拟合数据,使方差减少:数据扰动产生影响小。

但偏差和方差往往比较矛盾,学习器的拟合能力更强,训练集的数据扰动就更容易被学习到,导致方差主导泛化错误率。会造成过拟合。如果拟合能力不强,则学习效果就不好。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容