深度学习 | 分类模型评价指标

在深度学习领域,常用的评价指标:
准确率 (Accuracy),混淆矩阵 (Confusion Matrix),精确率(Precision),召回率(Recall),平均正确率(AP),mean Average Precision(mAP),交并比(IoU),ROC + AUC,非极大值抑制(NMS)。
在了解这些指标之前,我们需要明白一下定义(通俗语言解释):
假设被检测物体为汽车;

  • TP (True Positive):被正确检测为汽车;
  • FP(False Positive):被错误检测为汽车(实际不是汽车);
  • FN(False Negative):未被检测为汽车,实际是汽车(错误检测);
  • TN(True Negative):正确检测不是汽车;(基本不会使用)

请记住:P(Positive)N(Negative)代表模型的判断结果T(True)F(False)评价模型的判断结果是否正确
在图像分类任务中,判断的正确与否很好区分,在目标检测任务中,可以这样理解:

  • TP (True Positive):一个正确的检测,检测的IOU ≥ threshold。即预测的边界框(bounding box)中分类正确且边界框坐标正确的数量。
  • FP (False Positive):一个错误的检测,检测的IOU < threshold即预测的边界框中分类错误或者边界框坐标不达标的数量,即预测出的所有边界框中除去预测正确的边界框,剩下的边界框的数量。
  • FN (False Negative):一个没有被检测出来的ground truth。所有没有预测到的边界框的数量,即正确的边界框(ground truth)中除去被预测正确的边界框,剩下的边界框的数量。

1. 准确率

准确率(Accuracy),所有预测正确的样本 / 总的样本:
Accuracy=\frac{TP+TN}{TP+FP+TN+FN}
准确率一般用来评估模型的全局准确程度,不能包含太多信息,无法全面评价一个模型性能。

2. 精确率

精确率(precision),也称为查准率,准确率是模型只找到相关目标的能力。通俗来说,你认为的正样本,有多少猜对了(猜的准确性如何),精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。准确率可以反映一个类别的预测正确率 。
Precision=\frac{TP}{TP+FP}

3. 召回率

召回率(recall),也称为查全率,是模型找到所有相关目标的能力,即模型给出的预测结果最多能覆盖多少真实目标。通俗解释:正样本有多少被找出来了(召回了多少),召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。
Recall=\frac{TP}{TP+FN}
区分好召回率和精确率的关键在于:针对的数据不同,召回率针对的是数据集中的所有正例,精确率针对的是模型判断出的所有正例
一般来说,对于多分类目标检测的任务,会分别计算每个类别的TP、FP、FN数量,进一步计算每个类别的Precision、Recall。

4. F-值

F1是基于精确率和召回率的调和平均,又称为F-Score
\frac{1}{F_1}=\frac{1}{2}\cdot (\frac{1}{P}+\frac{1}{R})

F1=\frac{2\times P\times R}{P+R}=\frac{2TP}{2TP+FP+FN}

5. PR曲线

准确率和召回率是互相影响的,因为如果想要提高准确率就会把预测的置信率阈值调高,所有置信率较高的预测才会被显示出来,而那一些正确正预测(True Positive)可能因为置信率比较低而没有被显示了。一般情况下准确率高、召回率就低,召回率低、准确率高,如果两者都低,就是网络出问题了。一般情况,用不同的阀值,统计出一组不同阀值下的精确率和召回率。
如果一个分类器的性能比较好,那么它应该有如下的表现:在Recall值增长的同时,Precision的值保持在一个很高的水平。而性能比较差的分类器可能会损失很多Precision值才能换来Recall值的提高。
PR曲线(Precision x Recall curve),所有precision-recall点相连形成的曲线(一般会为每个类别的预测框建立各自的PR曲线)。通常情况下,文章中都会使用Precision-recall曲线,来显示出分类器在Precision与Recall之间的权衡。

PR曲线.png

通常,P,R均是针对一组测试集而言,因此PR曲线也是针对一组测试集而言。假如模型针对某一目标种类,测试集为5张图片,有以下预测结果。其中总共预测出9个目标,实际目标有6个。P,R计算以及PR曲线绘制如下:

pr-.jpg

6. AP、mAP

平均精度(Average-Precision,AP),就是Precision-recall 曲线下面的面积,通常来说一个越好的分类器,AP值越高。
mean Average Precision(mAP),是所有类别AP的平均值。这个mean的意思是对每个类的AP求和再求平均,得到的就是mAP的值。mAP的大小一定在[0,1]区间,越大越好。该指标是目标检测算法中最重要的一个。

7. IoU

交并比(Intersection-over-Union,IoU),是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率,即它们的交集与并集的比值

Iou.png

\text {IoU}=\frac{C\cap G}{C\cup G}

IoU正是表达这种bounding boxgroundtruth的差异的指标。最理想情况是完全重叠,即比值为1。

8. ROC曲线

ROC(Receiver Operating Characteristic)曲线,曲线的横坐标为假正例率(FPR),纵坐标为TPR(真正例率)
FPR=\frac {FP}{FP+TN}

TPR=\frac {TP}{TP+FN}=Recall

AUC (Area under Curve):即ROC曲线下的面积,介于0.1和1之间,作为数值可以直观的评价分类器的好坏,值越大越好。
ROC曲线也需要相应的阈值才可以进行绘制,原理同上的PR曲线。下图为ROC曲线示意图,因现实任务中通常利用有限个测试样例来绘制ROC图,因此应为无法产生光滑曲线,如右图所示。

roc&auc.jpg

  • ROC曲线图中的四个点
    第一个点:(0,1),即FPR=0, TPR=1,这意味着FN=0,并且FP=0。这是完美的分类器,它将所有的样本都正确分类。
    第二个点:(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。
    第三个点:(0,0),即FPR=TPR=0,即FP=TP=0,可以发现该分类器预测所有的样本都为负样本(negative)。
    第四个点:(1,1),分类器实际上预测所有的样本都为正样本。
    经过以上的分析,ROC曲线越接近左上角,该分类器的性能越好。

9. 非极大值抑制(NMS)

Non-Maximum Suppression就是需要根据score矩阵和region的坐标信息,从中找到置信度比较高的bounding box。对于有重叠在一起的预测框,只保留得分最高的那个。

  1. NMS计算出每一个bounding box的面积,然后根据score进行排序,把score最大的bounding box作为队列中首个要比较的对象;
  2. 计算其余bounding box与当前最大score与box的IoU,去除IoU大于设定的阈值的bounding box,保留小的IoU得预测框;
  3. 然后重复上面的过程,直至候选bounding box为空。

最终,检测了bounding box的过程中有两个阈值,一个就是IoU,另一个是在过程之后,从候选的bounding box中剔除score小于阈值的bounding box。需要注意的是:Non-Maximum Suppression一次处理一个类别,如果有N个类别,Non-Maximum Suppression就需要执行N次。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容