笔记#9分类效果指标速记手册（part1）

混淆矩阵、精准率、召回率...总是记不清楚，手绘加深记忆。

图片发自简书App

一、问题的起点：解决什么问题

解决分类（Classification）准确性问题，相对于回归（Regression）

插播：分类与回归的区别

1.本质上都是画一根线，做数据拟合，让计算机“造”出一个函数（对一系列样本（x,y）构建f(x)-->y的映射），让他能和自然界中客观存在的未知函数尽可能地吻合。这也是有监督学习的本质。

2.区别在于输出，即输出的连续与否。

（1）回归画线是为了找到最优的拟合线

房价上升下降的影响因素有大小、地段、朝向、学区......（无尽细分）

（2）分类是为了画线区分两边

云青青兮欲雨（云青青-->雨，雨是具体的天气状态子集）

3.数学上的实际过程：把线性函数加一层映射，映射到空间，然后设置一个阈值，超过该值取分类1 ，否则取分类 0。

拟合y=ax+b这条直线，使得这条直线尽可能地将原始数据中的两个类别正确的划分开。

至于为什么要使用sigmoid，需要展开。简单的结论是，因为作为广义线性模型（GLM）中的一类，逻辑回归的连接函数的 canonical 形式就是 sigmoid函数。（不知道在说啥，下下下回分解）

二、描述标准：有猜对/猜错两种结果，那么实际和猜的情况可以花式组合

1、混淆矩阵

正样本、负样本使用统计上的显著（阳），不显著（阴）更好理解

2、正样本中预测正确的比例--准确率 (查准率) Precision--预测的违约贷款中，真的违约有多少。（换言之错杀了多少）

3、预测正确的正样本占所有正样本的比例--召回率 (查全率) Recall--所有违约中有多少被预测到了。（漏抓了多少）

（吐槽一下精准、召回两种翻译，查准、查全好理解多了）

4、宁可错杀一千vs不错怪一个好人？打架了怎么办

利用Recall和Precision的调和平均值作为衡量标准

想倾向于某一个?加权调和平均值

贝塔大则倾向于p

三、想手工调一下，有没有办法观察模型好坏随阈值的变化趋势呢？

ROC出场

ROC\AUC\KS下回分解

（滑了二十公里腿酸到睡不着也写不动）