(上接笔记#9分类效果指标速记手册(part1))
一、观察模型好坏随阈值的变化趋势--ROC
即是以代价 (costs) 对收益 (benefits),显然收益越高,代价越低,模型的性能就越好costs---x 轴为假阳性率(FPR):在所有的负样本中,分类器预测错误的比例benefits---y 轴为真阳性率(TPR):在所有的正样本中,分类器预测正确的比例(等于Recall)
二、ROC具体怎么做?
三、好坏怎么看
由ROC曲线距离左上角越近分类器效果越好,我们可以知道分类器 4 效果最好, 分类器 1 效果最差。那么怎样判断分类器 2 和分类器 3 呢?看上图的面积,即AUC。
面积即概率累积==》所以AUC即正样本的预测结果大于负样本的预测结果的概率===》AUC反应的是分类器对样本的排序能力。
AUC = 1,是完美分类器。
0.5 < AUC < 1,优于随机猜测。有预测价值。
AUC = 0.5,跟随机猜测一样(例:丢铜板),没有预测价值。
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
四、ROC、AUC的优势(需补充劣势)
AUC对样本类别是否均衡并不敏感,不均衡样本通常用AUC评价分类器性能的一个原因
五、如果不是分两根坐标,把阈值放x轴,把TPR放上面,把FPR放下面(都在y轴)===》区隔度--KS值
KS为预测正负样本分隔程度的评价指标
KS曲线中,则是以阈值作为横坐标,以FPR和TPR作为纵坐标,ks曲线则为TPR-FPR,ks曲线的最大值通常为ks值。
当阈值减小时,TPR和FPR会同时减小,当阈值增大时,TPR和FPR会同时增大。
KS值的取值范围是[0,1]。通常来说,值越大,模型区分正负样本的能力越强(一般0.3以上,说明模型的效果比较好)。
分类分完,是不是一直这么可靠?下次捋一下整个建模流程和稳定性指标PSI。