机器学习:常用模型评估指标

在机器学习建模过程中,针对不同的问题,需采用不同的模型评估指标。

一、分类模型评估指标:

  • 1、混淆矩阵(Confusion Matrix)
  • 2、正确率/准确率(Accuracy)
  • 3、错误率(Error rate)
  • 4、精确率/查准率(Precision)
  • 5、召回率/查全率(Recall)
  • 6、PR曲线(Precision Recall Curve) 和 F1-score
  • 7、ROC曲线(Receiver Operating Characteristic) 和 AUC(Area Under Curve)

二、目标检测评估指标:

  • 1、IoU(Intersection over Union)
  • 2、mAP(mean Average Precision)

一、分类模型评估指标

1、混淆矩阵(Confusion Matrix)

混淆矩阵也称为误差矩阵,是表示精度评价的一种标准格式,用 n \times n 的矩阵形式来表示。

最常见的二元分类,它的混淆矩阵是一个 2 \times 2 表,用来衡量一个分类器分类的准确程度。

二元混淆矩阵

混淆矩阵中 TP、TN、FP、FN 四个值代表的含义:

  • 真正(True Positive,TP):被模型预测为正的正样本。
  • 真负(True Negative , TN):被模型预测为负的负样本。
  • 假正(False Positive, FP):被模型预测为正的负样本。
  • 假负(False Negative , FN):被模型预测为负的正样本。

其中,第一个字母表示本次预测的正确性,T就是正确,F就是错误;第二个字母则表示由分类器预测的类别,P代表预测为正例,N代表预测为反例。

  • 真正率(True Positive Rate,TPR):被预测为正的正样本数/正样本实际数,TPR=TP/(TP+FN)。或称 灵敏度(Sensitivity),或称 召回率。
  • 真负率(True Negative Rate,TNR):被预测为负的负样本数/负样本实际数,TNR=TN/(FP+TN)。或称 特异度(Specificity)。
  • 假正率(False Positive Rate,FPR):被预测为正的负样本数/负样本实际数,FPR=FP/(FP+TN)。
  • 假负率(False Negative Rate,FNR):被预测为负的正样本数/正样本实际数,FNR=FN/(TP+FN)。
2、正确率/准确率(Accuracy)

准确率(Accuracy):所有被正确预测占总数的比例。
         Accuracy=\frac{TP+TN}{TP+FP+TN+FN}

3、错误率(Error rate)

错误率:所有被错误预测占总数的比例。
         错误率 = \frac{FP+FN}{TP+FP+TN+FN}
正确率和错误率是分别从正反两方面进行评价的指标,两者数值相加刚好等于1。正确率越高,错误率就越低;正确率越低,错误率就越高。

4、精确率/查准率(Precision)

精确率(Precision):也叫查准率,是指在所有被预测为正的样本中,确实是正样本的占比。
         Precision=\frac{TP}{TP+FP}

5、召回率/查全率(Recall)

召回率(Recall):也叫查全率,是指在所有确实为正的样本中,被预测为正样本的占比。
         Recall=\frac{TP}{TP+FN}
Recall等价于灵敏度Sensitivity和真正率TPR。

6、PR曲线(Precision Recall Curve) 和 F1-score

然而,Precision和Recall是一对矛盾的度量,高精度往往对应低召回率。为了综合评价整体结果,我们以查准率为y轴,以查全率为x轴,构成了PR曲线(PRC对 样本不均衡 敏感),如下图所示:

PR曲线

PRC能直观地显示学习器在样本总体上的查全率和查准率,显然它是一条总体趋势递减的曲线。不同的学习器进行比较时,查准率和查全率能取得双高,说明其性能更优。因此,若一个学习区的PR曲线被另一个学习器的PR曲线完全包住,则可断言后者的性能优于前者,比如上图中的A优于C。但是B和A谁更好呢?AB曲线交叉了,所以很难比较,这时候比较合理的判据就是比较PR曲线下的面积,该指标在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。因为这个值(面积)不容易度量,所以人们引入了“平衡点(Break-Even Point,BEP)”来度量,它表示“查准率=查全率”时的取值,值越大表明性能越好,以此我们可以一下子判断A比B性能好。

另一种更常用的度量方法是 F1-score 度量,它被定义为精确率和召回率的调和平均数:
         {F_1}=\frac{2}{\frac{1}{P} + \frac{1}{R}}=\frac{2PR}{P+R}
F_1值是综合考虑精确率和召回率的一个指标。在F_1值中,精确率和召回率是同等重要的,权重R_{weight}=P_{weight}=0.5

但面对有些实际场景,本身就要求更重视精确率或更重视召回率的情况,该如何处理呢?比如地震预测,我们希望Recall非常高,希望每次地震都能被预测出来,这时候我们可以牺牲Precision。情愿发出1000次预测,把10次地震都预测正确了;也不要预测100次,对了8次漏了两次。所以我们可以设定在合理的Precision下,最高的Recall作为最优点,找到这个对应的threshold点。
于是我们引入F_β分数的定义:
         {F_β}=\frac{1}{\frac{P_{weight}}{P}+\frac{R_{weight}}{R}}
β^2=\frac{R_{weight}}{P_{weight}},R_{weight}+P_{weight}=1,上式可化简为:
         {F_β}=(β^2+1)\frac{PR}{β^2P+R}
其中β为正数,其作用是调整精确度和召回率的权重。β越大,召回率的权重更大;β越小,则精确度的权重更大。当β=1时为F_1值,此时精确度和召回率权值均为0.5,即:

  • β=1,查全率的权重=查准率的权重=0.5,即为F_1分数。
  • β>1,查全率的权重>查准率的权重。
  • β<1,查全率的权重<查准率的权重。
7、ROC曲线(Receiver Operating Characteristic) 和 AUC(Area Under Curve)

ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,ROC曲线以“真正率”(TPR)为y轴,以“假正率”(FPR)为x轴,对角线对应“随机猜测模型”,而(0,1)则对应“理想模型”。如下图所示:

ROC曲线

其中,TPR=\frac{TP}{TP+FN},FPR=\frac{FP}{FP+TN}

在对学习器进行比较时,与PR曲线类似,若一个学习器的ROC曲线被另一个学习器的曲线完全包住,则我们可以断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以比较两者的性能。此时我们可以比较ROC曲线下的面积,即AUC(Area Under Curve),面积大的曲线对应的性能更好。
TPR=1,FPR=0时,为理想模型,此时AUC为1。但现实生活中AUC一般介于0.5到1之间,AUC越高,说明模型的区分能力越好。若AUC=0.5,此时模型的区分能力与随机猜测没有区别。若AUC<0.5,请检查一下好坏标签是否标反了,或者是模型真的很差。

PRC和ROC在模型性能评估上效果差不多,但如果样本的正负分布极不均衡,应以PRC为评估指标。PRC对于样本不均衡敏感,能够更有效地反应分类器的好快;而ROC的AUC可能看不出好坏。


二、目标检测评估指标

目标检测问题:给定一个图像,找到其中的目标以及位置,并且对目标进行分类。

目标检测
1、IoU(Intersection over Union)

IoU(Intersection over Union,交并比)是一种测量在特定数据集中检测相应物体标准度的一个标准。是目标检测任务中常用的评价指标。
IoU的定义,预测框与标注框的交集与并集之比:

IoU

IoU的值越大说明检测性能越好,当IoU=1时,说明预测框与目标框完全一致。下图中 0.4037<0.7330<0.9264,他们的预测效果依次增强。

2、mAP(mean Average Precision)
  • AP(Average Precision,平均精度)是PR曲线围成的面积,用来衡量对一个类检测的好坏。
  • mAP(mean Average Precision,均值平均精度)是各类别AP的平均值,衡量对多个类的目标检测好坏。

mAP是目标检测中最常用的测评指标。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容