28、分类准确度不够:可以使用更多性能测量

度du当您为分类问题构建模型时,您几乎总是希望将该模型的准确性视为所有预测所做的正确预测的数量。

这是分类准确度。

在之前的文章中,我们研究了使用交叉验证和多重交叉验证来评估模型的稳健性,以便对看不见的数据进行预测,其中我们使用了分类准确度和平均分类准确度。

一旦你拥有一个你认为可以做出强有力预测的模型,你需要确定它是否足以解决你的问题。单独的分类准确性通常不足以做出此决定。

image.png

分类准确度
照片由Nina Matthews摄影,保留一些权利

在这篇文章中,我们将介绍Precision和Recall性能度量,您可以使用它们来评估模型的二进制分类问题。

乳腺癌复发

乳腺癌的数据集是一个标准的机器学习数据集。它包含9个属性,描述了286名患有乳腺癌并且在乳腺癌中存活并且在5年内是否复发的女性。

这是一个二元分类问题。在286名女性中,201名患者未复发乳腺癌,剩下的85名女性患乳腺癌。

我认为对于这个问题,假阴性可能比误报更糟糕。你同意吗?更详细的筛查可以清除误报,但是假阴性被送回家并丢失以进行后续评估。

分类准确度

分类准确度是我们的出发点。它是正确预测的数量除以预测的总数,乘以100将其变为百分比。

一切都没有复发

仅预测不会复发乳腺癌的模型将达到(201/286)* 100或70.28%的准确度。我们称之为“所有不复发”。这是一个高精度,但一个可怕的模型。如果它被单独用于决策支持以告知医生(不可能,但一起玩),它会将85名妇女误认为他们的乳腺癌不会再发生(高假阴性)。

所有复发

仅预测乳腺癌复发的模型将达到(85/286)* 100或29.72%的准确度。我们称之为“所有复发”。这个模型具有可怕的准确性,并且会让201名女性认为乳腺癌复发,但实际上没有(高假阳性)。

大车

CART或分类和回归树是一种功能强大但简单的决策树算法。在这个问题上,CART可以达到69.23%的准确率。这低于我们的“All No Recurrence”模型,但这个模型更有价值吗?

我们可以看出,单独的分类准确性不足以为此问题选择模型。

混乱矩阵

呈现分类器的预测结果的清晰且明确的方式是使用混淆矩阵(也称为列联表)。

对于二进制分类问题,该表有2行2列。顶部是观察到的类标签,而旁边是预测的类标签。每个单元格包含落入该单元格的分类器所做的预测数量。

真相表混淆矩阵

在这种情况下,一个完美的分类器将正确预测201没有复发和85复发,这将进入左上角的细胞没有复发/没有复发(真阴性)和右下角细胞复发/复发(真阳性)。

不正确的预测显然会分解为另外两个单元格。假阴性是分类器标记为不再发生的重复。我们没有这些。假阳性不是分类器标记为重复的重复。

这是一个有用的表,它提供了数据中的类分布和分类器预测的类分布以及错误类型的细分。

所有无复发混淆矩阵

混淆矩阵突出显示大量假阴性(85)。

所有无复发混淆矩阵

所有递归混淆矩阵

混淆矩阵突出了大量(201)的误报。

所有递归混淆矩阵

CART混淆矩阵

这看起来像一个更有价值的分类器,因为它正确地预测了10个重复事件以及188个没有重复事件。该模型还显示了适度数量的假阴性(75)和假阳性(13)。

CART混淆矩阵

准确性悖论

正如我们在这个例子中所看到的,准确性可能会产生误导。有时可能需要选择精度较低的模型,因为它对问题具有更强的预测能力。

例如,在存在大类不平衡的问题中,模型可以预测所有预测的多数类的值并实现高分类准确性,问题在于该模型在问题域中没有用。正如我们在乳腺癌中看到的那样。

这被称为准确性悖论。对于类似的问题,需要这些额外的措施来评估分类器。

精确

精度是真阳性的数量除以真阳性和假阳性的数量。换句话说,它是正预测的数量除以预测的正类值的总数。它也被称为积极预测值(PPV)。

精度可以被认为是分类器精确度的度量。低精度也可以表示大量的误报。

  • All No Reurrence模型的精度为0 /(0 + 0)或不是数字,或0。
  • All Recurrence模型的精度为85 /(85 + 201)或0.30。
  • CART模型的精度为10 /(10 + 13)或0.43。

精度表明CART是一个更好的模型,即使它具有较低的准确度,所有重复发生比全无重复模型更有用。All Reurrence模型和CART之间的精确度差异可以通过All Recurrence模型预测的大量误报来解释。

召回

召回是真阳性的数量除以真阳性的数量和假阴性的数量。换句话说,它是正预测的数量除以测试数据中的正类值的数量。它也称为灵敏度或真阳性率。

召回可以被认为是分类器完整性的度量。低召回率表示许多假阴性。

  • All No Recurrence模型的召回是0 /(0 + 85)或0。
  • 召回全复发模型为85 /(85 + 0)或1。
  • 召回CART为10 /(10 + 75)或0.12。

正如您所料,All Reurrence模型具有完美的回忆,因为它预测所有实例的“重复”。CART的召回率低于All Recurrence模型的召回率。这可以通过CART模型预测的大量(75)假阴性来解释。

F1得分

F1分数是2 ((精度召回)/(精度+召回))。它也被称为F分数或F量度。换句话说,F1分数表达了精确度和召回之间的平衡。

  • 全无复发模型的F1为2 *((0 * 0)/ 0 + 0)或0。
  • 全复发模型的F1为2 *((0.3 * 1)/0.3+1)或0.46。
  • CART模型的F1为2 *((0.43 * 0.12)/0.43+0.12)或0.19。

如果我们希望基于精确度和召回之间的平衡来选择模型,F1测量表明所有重复模型都是最佳模型,并且CART模型还没有足够的竞争力。

摘要

在这篇文章中,您了解了准确性悖论以及类别不平衡的问题,因为单独的分类准确性无法被信任以选择性能良好的模型。

通过示例,您了解了混淆矩阵,以此来描述未见数据集的预测中的错误细分。您了解了总结模型精度(准确性)和召回(完整性)的措施,以及F1分数中两者之间平衡的描述。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容