机器学习[1] - 模型评估与选择

评估方法

留出法 Hold-out
“留出法”将两个数据集拆分为两个互斥的集，一般训练集为70%，测试集为30%。这样使用测试集得出的测试误差(testing error)更具有泛性。
交叉验证法 Cross Validation
将数据集拆分为n份，依次选取其中的一份作为测试集，然后平均得出结果。

10 folds 交叉验证法
自助法 bootstrapping
自助法为从有 $n$ 个样本量数据集中有放回随机选取一个样本集，作为训练集。在重复了 $n$ 的抽样之后，样本从来没有被选到过的几率为：
$\lim_{x\to\infty}(1-1/m)^m \to \frac{1}{e}=0.368...$
自助法在数据集较小时，较为有用。此外，自助法可以产生多个训练集，对集成学习有很大的好处，但是自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差，因此在数据量足够时，交叉验证法更为常用。

性能度量

回归任务中，最常用的性能度量为MSE(mean squared error)
$MSE = E(f; D) = \frac{1}{m} \sum_{i=1}^{m}(f(x_i)-y_i)^2$
以下主要讨论分类模型的常用性能度量

错误率与精度
错误率：
$E(f; D) = \frac{1}{m} \sum_{i=1}^{m} P(f(x_i)\neq y_i)$
精度：
$\begin{aligned} acc(f; D) &= 1 - E(f; D) \\&= \frac{1}{m} \sum_{i=1}^{m} P(f(x_i) = y_i) \end{aligned}$
查准率、查全率、与F1、
错误率和精度虽常用，但并不能满足所有任务需求。例如二分类模型，我们需要知道判断为真的部分有多少确实为真，或者确认为真的部分多少被预测为真。这两种需求就无法满足。
对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例 (false positive) 、真反倒(true negative)、假反例 (false negative) 四种情形，令 TP、FP、TN、FN分别表示样例数。

分类结果混淆矩阵

查准率（预测为真中，有多少实际为真）：

P(Precision) = \frac{TP}{TP + FP}

查全率（实际为真中，有多少预测为真）：

R(Recall) = \frac{TP}{TP + FN}

对于在不同的模型中做对比时，我们常用P-R曲线。如下图，ABC代表了三个模型，如果其中一个模型完全将另一个模型的曲线包裹在内，则代表模型性能更优（例如B优于C）。对比面积是比较好的一个选择，但是计算难度较大，所以一般使用平衡点作为度量值。平衡点（Break-Event Point）是

P=R

时的值。

P-R曲线示意图

由于BEP还是过于太简化了，更常用的是

F1

度量：

F1 = \frac{2 \times P \times R}{P + R} = \frac{2TP}{n + TP - TN}

其中

n

= 样本量。F1的核心思想在于，在尽可能的提高P和R的同时，也希望两者之间的差异尽可能小。
但是在结合业务时，有时我们想在一定程度上偏向P或者R，例如商品推荐系统，我们希望推荐更精准（更大的P）且少打扰用户（更小的R），这个时候我们就需要使用

F1

更泛性的度

F_{\beta}

F_\beta = \frac{(1 + \beta^2) \times P \times R}{(\beta^2 \times P) + R}

其中

\beta

度量了查全率对查准率的相对重要性：

\beta > 1

时更偏向R，

\beta < 1

更偏向P。
如果使用了类似交叉验证法，我们会得到多个confusion matrix，一般处理这种情况有两种选择：

宏观 $macro\,F1$
对于每个confusion matrix先计算出 $P$ 、 $R$ ，然后求得平均并带入公式求 $macro\,F1$
$\begin{aligned} macro\,P &= \frac{1}{n}\sum_{i = 1}^{n} P_i \\ macro\,R &= \frac{1}{n}\sum_{i = 1}^{n} R_i \\ macro\,F1 &= \frac{2 \times macro\,P \times macro\,R}{\times macro\,P + macro\,R} \end{aligned}$
微观 $micro\,F1$
先求confusion matrix各元素的平均值，然后计算 $P$ 、 $R$ 。
$\begin{aligned} micro\,P &= \frac{\overline {TP}}{\overline {TP} + \overline {FP}} \\ micro\,R &= \frac{\overline {TP}}{\overline {TP} + \overline {FN}} \\ micro\,F1 &= \frac{2 \times micro\,P \times micro\,R}{\times micro\,P + micro\,R} \end{aligned}$

ROC与AUC
ROC 全称是"受试者工作特征" (Receiver Operating Characteristic)。与P-R曲线不同的是，ROC使用了“真正例率”和“假正例子率”
$\begin{aligned} TPR(Precision) &= \frac{TP}{TP + FN} \\ FPR(Precision) &= \frac{FP}{FP + TN} \end{aligned}$

ROC与AUC示例

对比模型间的好坏，与P-R类似，是对比ROC曲线下的面积，称之为AUC(Area Under ROC Curve)。
假定ROC曲线由 $\left\{(x_1,y_1),(x_2, y_2)...(x_m, y_m)\right\}$ 一系列的点组成，且 $x_1 = 0, x_m = 1$ ，则AUC可以估算为长方形面积的和：
$AUC = \frac{1}{2}\sum_{i = 1}^{m-1}(x_{i+1}-x_i)(y_{i+1}-y_i)$

实际一般使用AUC与Wilcoxon-Mann-Whitney Test U统计量的关系，来计算AUC，
笔者的另一篇笔记Mann-Whitney U Test与ROC、AUC

从概念上理解，简单来说其实是随机抽出一对样本（一个正样本，一个负样本），然后用训练得到的分类器来对这两个样本进行预测，预测得到正样本的概率大于负样本概率的概率。
$AUC = P(P(Positve) > P(Negative))$

reference

周志华，机器学习
scikit learn官方文档
Mann-Whitney U Test与ROC、AUC

最后编辑于：2021.04.19 15:58:19

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,277评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,689评论 3赞 393
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,624评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,356评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,402评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,292评论 1赞 301
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,135评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,992评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,429评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,636评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,785评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,492评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,092评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,723评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,858评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,891评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,713评论 2赞 354

机器学习[1] - 模型评估与选择

评估方法

性能度量

推荐阅读更多精彩内容