笔记#9分类效果指标速记手册(part1)

混淆矩阵、精准率、召回率...总是记不清楚,手绘加深记忆。

图片发自简书App

一、问题的起点:解决什么问题

解决分类(Classification)准确性问题,相对于回归(Regression)

插播:分类与回归的区别

1.本质上都是画一根线,做数据拟合,让计算机“造”出一个函数(对一系列样本(x,y)构建f(x)-->y的映射),让他能和自然界中客观存在的未知函数尽可能地吻合。这也是有监督学习的本质。

2.区别在于输出,即输出的连续与否。

(1)回归画线是为了找到最优的拟合线

房价上升下降的影响因素有大小、地段、朝向、学区......(无尽细分)

(2)分类是为了画线区分两边

云青青兮欲雨(云青青-->雨,雨是具体的天气状态子集)

3.数学上的实际过程:把线性函数加一层映射, 映射到空间, 然后设置一个阈值,超过该值取分类1 ,否则取分类 0。

拟合y=ax+b这条直线,使得这条直线尽可能地将原始数据中的两个类别正确的划分开。

至于为什么要使用sigmoid,需要展开。简单的结论是,因为作为广义线性模型(GLM)中的一类,逻辑回归的连接函数的 canonical 形式就是 sigmoid函数。(不知道在说啥,下下下回分解)

二、 描述标准:有猜对/猜错两种结果,那么实际和猜的情况可以花式组合

1、混淆矩阵

正样本、负样本使用统计上的显著(阳),不显著(阴)更好理解


2、正样本中预测正确的比例--准确率 (查准率) Precision--预测的违约贷款中,真的违约有多少。(换言之错杀了多少)

3、预测正确的正样本占所有正样本的比例--召回率 (查全率) Recall--所有违约中有多少被预测到了。(漏抓了多少)

(吐槽一下精准、召回两种翻译,查准、查全好理解多了)

4、宁可错杀一千vs不错怪一个好人?打架了怎么办

利用Recall和Precision的调和平均值作为衡量标准

想倾向于某一个?加权调和平均值

贝塔大则倾向于p

三、想手工调一下,有没有办法观察模型好坏随阈值的变化趋势呢?

ROC出场

ROC\AUC\KS下回分解

(滑了二十公里腿酸到睡不着也写不动)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容