模型评估指标

混淆矩阵、精确率、召回率,ROC、AUC

对于二分类问题来说,所有的问题被分为0和1两类,混淆矩阵是2*2的矩阵:

Tables 预测值0 预测值1
真实值0 TN FP
真实值1 FN TP

TN:真实值是0,预测值也是0,即我们预测是negative,预测正确了。
FP:真实值是0,预测值是1,即我们预测是positive,但是预测错误了。
FN:真实值是1,预测值是0,即我们预测是negative,但预测错误了。
TP:真实值是1,预测值是1,即我们预测是positive,预测正确了。

由此引申出pricision(精确率)和recall(召回率):
1. pricision=TP/(TP+FP)
2. recall=TP/(TP+FN)

精确度即为被正确预测成1的,占被预测成1的比例。
召回率即为被正确预测成1的,占应该被预测成1的比例。

根据业务的不同,对精确率与召回率的关注不同,有另一个指标进行综合衡量F1 score。

F1 score = 2pricision*recall/(pricision+recall)

F1 Score是精准率和召回率的调和平均值,可以平衡这两个指标。

之前默认分类阈值为0.5,根据实际需要阈值可以进行调整。这里介绍两个概念TPR与FPR,


TPR

FPR

以FPR为x轴,TPR为y轴,可以绘制ROC曲线(Receiver Operation Characteristic Curve)。在ROC曲线下面的面积, 则称为AUC(Area Under Curve),通过计算曲线下的面积AUC,可以判断哪个分类器性能更好。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容