评估指标ROC与AUC

一、评价指标的意义

        在分类任务中,我们在训练完模型后,需要使用测试样本对模型进行性能测试。针对分类问题,测试结果最终划分为4类:真正类,真负类,假正类,假负类。

一些术语:

正类(阳性 ) (P, positive)   

负类(阴性) (N, Negative)

以下为四类预测结果的定义:

(1)如果正样本被预测成为正类,就是真正类(True Postive TP)

(2)如果负样本被预测成为负类,就是真负类(True Negative TN)

(3)如果负样本被预测成为正类,就是假正类(False Postive FP)

(4)如果正样本被预测成为负类,就是假负类(False Negative FN)

把四种结果组合在一个表格中,就形成了混淆矩阵(confusion_matrix)

混淆矩阵


在sklearn中自带混淆矩阵的计算方法,把真实值和预测值直接代入即可计算出结果。纵轴为预测结果,横轴为真实结果。

混淆矩阵示例


二、由混淆矩阵延伸出的指标

真正率(召回率,灵敏度),True Positive Rate:TPR = TP/ (TP+FN)

假正率, False Postive Rate:FPR = FP/(TN+FP)

其中 FPR + TNR = 1,在约登指数中会应用到。

由混淆矩阵延伸的指标


由混淆矩阵延伸出的指标再延伸出的指标

1、PPV和TPR可以计算F1

F1值


2、TPR和TNR可以计算约登指数

YoudenIndex =  TPR + TNR - 1

三、ROC

1、背景

ROC的全称是“受试者操作特征”(Receiver Operating Characteristic)曲线,又称为感受性曲线(sensitivity curve),首先是由二战中的电子工程师和雷达工程师发明的,用来侦测战场上的敌军载具(飞机、船舰),也就是信号检测理论。之后很快就被引入了心理学来进行信号的知觉检测。此后被引入机器学习领域,用来评判分类、检测结果的好坏。因此,ROC曲线是非常重要和常见的统计分析方法。以假正性率(False positive rate)为横轴,真正率(True positive rate)为纵轴所组成的坐标图,测试样本在不同的判断标准(阈值)得出的不同结果画出的曲线。

2. “ROC 曲线”思路:

根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值(TPR、FPR),分别以它们为横、纵坐标作图。

3、怎么画ROC曲线

如果我们使用二分类模型(例如逻辑回归)来判断一个人是否是我们的目标客户,这时模型会得到这个人是目标客户的得分(或者叫概率)。例如有一个20人的样本集,这20人我们已经知道其分类特征,其中10人是我们的目标客户(p),另外10人不是(n),而我们的模型也给每个人打了分数(score),分数越高则是目标客户的概率越大。我们按照得分倒序排序如下:

得分倒排


把每一个人的得分作为阀值,都计算出相应的TPR和FPR,就能画成一个图。

根据得分绘制ROC曲线过程


ROC曲线


四、AUC (Area under Curve):

ROC曲线下的面积,介于0.1和1之间,作为数值可以直观的评价分类器的好坏,值越大越好。

测试任意给一个正类样本和一个负类样本,正类样本的score有多大的概率大于负类样本的score。

· AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。

· 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

· AUC = 0.5,跟随机猜测一样,模型没有预测价值。

· AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

五、约登指数

约登指数(Youden index):最佳界值的确定指数,该值取最大值处就是最佳的界限,即最佳阈值。

约登指数 = 敏感度+特异度-1,其中 特异度=1-假正率;故在ROC曲线中,约登指数 = 敏感度 - 假正率。

约登指数的几何表示,最大化ROC曲线上的点到x轴的垂直距离。就是保证TPR高的同时FPR要尽量的小。

寻找约登指数
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352