再谈AUC

文集里的下一篇是AUC,应该也是我看的第一篇了,重新看了之后,梳理了一些易忘的和以前没考虑过的,再拎出来写一下。

1.为什么AUC的最低值为0.5

根据文章链接出的回答:https://www.zhihu.com/question/39840928,从AUC的横纵轴出发解释(很赞)

横轴是FPRate,纵轴是TPRate,两者的含义分别是

那么AUC=0.5表示曲线y=x下的面积,也就是每一个样本TPRate恒等于FPRate,翻译一下就是不管是正样本还是负样本,预测为1的概率都是一样的,相当于一个随机分类器了。

2.我知道AUC表示的是选择一个正样本和负样本,正样本排序在负样本之前的概率,为什么呢?

这个问题的答案是来自我之前那篇https://www.jianshu.com/p/d8f71bc1ed6e,每一个正例的延长线的面积表示后面有多少负例/M*N,也就是拎出来这个正例排在多少负例之前,求和就是正例排在负例前的对数再除以正负例总对数,就是正例排在负例前的概率了。

3.AUC为什么适合衡量样本不均衡的情况

举个例子,如果一个例子里正例很少(大多数情况)仅1%,那么如果全部预测为负例,虽然accuracy是99%,但是TPRate和FPRate都是0(压根就没有预测出正例),所以只有(0,0)这个点,AUC就是0.5;

反过来如果一个数据集中正样本占99%,负样本占1%,那么就只有(1,1)这个点,还是要连接(0,0)的,所以也是0.5(但是没那么好理解)

4.能不能直接优化AUC

知乎回答里的第二个回答说可以,有的包里带了以AUC为优化目标的目标函数,这里在看LTR的时候可以注意看看。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容