文集里的下一篇是AUC,应该也是我看的第一篇了,重新看了之后,梳理了一些易忘的和以前没考虑过的,再拎出来写一下。
1.为什么AUC的最低值为0.5
根据文章链接出的回答:https://www.zhihu.com/question/39840928,从AUC的横纵轴出发解释(很赞)
横轴是FPRate,纵轴是TPRate,两者的含义分别是
那么AUC=0.5表示曲线y=x下的面积,也就是每一个样本TPRate恒等于FPRate,翻译一下就是不管是正样本还是负样本,预测为1的概率都是一样的,相当于一个随机分类器了。
2.我知道AUC表示的是选择一个正样本和负样本,正样本排序在负样本之前的概率,为什么呢?
这个问题的答案是来自我之前那篇https://www.jianshu.com/p/d8f71bc1ed6e,每一个正例的延长线的面积表示后面有多少负例/M*N,也就是拎出来这个正例排在多少负例之前,求和就是正例排在负例前的对数再除以正负例总对数,就是正例排在负例前的概率了。
3.AUC为什么适合衡量样本不均衡的情况
举个例子,如果一个例子里正例很少(大多数情况)仅1%,那么如果全部预测为负例,虽然accuracy是99%,但是TPRate和FPRate都是0(压根就没有预测出正例),所以只有(0,0)这个点,AUC就是0.5;
反过来如果一个数据集中正样本占99%,负样本占1%,那么就只有(1,1)这个点,还是要连接(0,0)的,所以也是0.5(但是没那么好理解)
4.能不能直接优化AUC
知乎回答里的第二个回答说可以,有的包里带了以AUC为优化目标的目标函数,这里在看LTR的时候可以注意看看。