第一章统计机器学习及监督学习概论（三）

1.5 正则化与交叉验证

1.5.1 正则化

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如，正则化项可以是模型参数向量的范数。

正则化项的主要作用是平衡模型复杂度和模型准确性

正则化一般具有如下形式:

$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$

正则化项可以取不同的形式。例如，回归问题中，损失函数是平方损失，正则化项可以是参数向量的 $L_2$ 范数:

$L(w)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; w\right)-y_{i}\right)^{2}+\frac{\lambda}{2}\|w\|^{2}$

这里， $\|w\|$ 表示参数向量 $\omega$ 的 $L_2$ 范数。

正则化项也可以是参数向量的 $L_1$ 范数：

$L(w)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; w\right)-y_{i}\right)^{2}+\lambda\|w\|_1$

这里， $\|w\|$ 表示参数向量 $\omega$ 的 $L_1$ 范数。

第 1 项的经验风险较小的模型可能较复杂（有多个非零参数），这时第 2 项的模型复杂度会较大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。

关于 $L_1$ 和 $L_2$ 范式的相关具体内容，请参考这里

1.5.2 交叉验证

如果给定的样本数据充足，进行模型选择的一种简单方法是随机地将数据集切分成三部分，分别为训练集、验证集和测试集。训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中，选择对验证集有最小预测误差的模型。由于验证集有足够多的数据，用它对模型进行选择也是有效的。

简单来说，训练集就是就是机器进行学习的对象数据，并且验证集和测试机不会被机器进行学习。每一轮次训练完之后会生成一个模型，利用验证集对该模型进行测试，如果验证集上表现优秀，可以简单地认为该模型表现不错，于是可以放到测试集上进行更大范围和数量的测试。但实际情况中，因为数据不足，测试集的数据数量通常较小，很难通过验证集来把握模型的优劣，于是需要进行交叉验证

但是，在许多实际应用中数据是不充足的。为了选择好的模型，可以采用交叉验
证方法。交叉验证的基本想法是重复地使用数据；把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复地进行训练、测试以及模型选择。

交叉验证的简单理解就是现在数据不够了，那我先将数据切分，然后通过排列组合的方式，让机器学习的数据看起来变多了（只是输入的训练数据和测试数据不同，但是总数没有变）

1. 简单交叉验证

简单交叉验证方法是：首先随机地将己给数据分为两部分，一部分作为训练集，另一部分作为测试集（例如， 70%的数据为训练集， 30%的数据为测试集）；然后用训练集在各种条件下(例如，不同的参数个数)训练模型，从而得到不同的模型：在测试集上评价各个模型的测试误差，选出测试误差最小的模型。

2. S折交叉验证

应用最多的是 $S$ 折交叉验证，方法如下:首先随机地将已给数据切分为 $S$ 个互不相交、大小相同的子集；然后利用 $S-1$ 个子集的数据训练模型，利用余下的子集测试模型：将这一过程对可能的 $S$ 种选择重复进行；最后选出 $S$ 次评测中平均测试误差最小的模型。

3. 留一交叉验证

$S$ 折交叉验证的特殊情形是 $S = N$ ，称为留一交叉验证，往往在数据缺乏的情况下使用。这里， $N$ 是给定数据集的容量。

1.6 泛化能力

1.6.1 泛化误差

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。但这种评价是依赖于测试数据集的。因为测试数据集是有限的，很有可能由此得到的评价结果是不可靠的。统计学习理论试图从理论上对学习方法的泛化能力进行分析。

首先给出泛化误差的定义。如果学到的模型是 $\hat{f}$ ，那么用这个模型对未知数据预测的误差即为泛化误差 :

$\begin{aligned}R_{\exp }(\hat{f}) &=E_{P}[L(Y, \hat{f}(X))] \\&=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat{f}(x)) P(x, y) \mathrm{d} x \mathrm{~d} y\end{aligned}$

泛化误差反映了学习方法的泛化能力，如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差，那么这种方法就更有效。事实上，泛化误差就是所学习到的模型的期望风险。

1.6.2 泛化误差上界

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的，简称为泛化误差上界。具体来说，就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

泛化误差上界通常具有以下性质：它是样本容量的函数，当样本容量增加时，泛化上界趋于 0；它是假设空间容量的函数，假设空间容量越大，模型就越难学，泛化误差上界就越大。

定理（泛化误差上界）对二类分类问题，当假设空间是有限个函数的集合 $\mathcal{F}=\{f_1,f_2,\dots,f_d\}$ 时，对任意一个函数 $f \in \mathcal{F}$ ，至少以概率 $1-\delta$ ， $0< \delta <1$ ，以下不等式成立：

$R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta)$

其中，

$\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}$

不等式左端 $R(f)$ 是泛化误差, 右端即为泛化误差上界。在泛化误差上界中, 第 1 项是训练误差, 训练误差越小, 泛化误差也越小。第 2 项 $\varepsilon(d, N, \delta)$ 是 $N$ 的单调递减函数, 当 $N$ 趋于无穷时趋于 0 ; 同时它也是 $\sqrt{\log d}$ 阶的函数, 假设空间 $\mathcal{F}$ 包含的函数越多, 其值越大。

这里证明过程不作说明，但是我们可以明显的看出，泛化误差上界的大小表示了泛化能力的大小，泛化上界越大，表示泛化能力越弱，而影响泛化误差上界的因素有测试误差、数据容量以及模型复杂度（函数 $f$ 的个数）

1.7 生成模型与判别模型

监督学习方法又可以分为生成方法和判别方法。所学到的模型分别称为生成模型和判别模型。

生成方法由数据学习联合概率分布 $P(X,Y)$ ，然后求出条件概率分布 $P(Y|X)$ 作为预测的模型，即生成模型:

$P(Y|X)=\frac{P(X,Y)}{P(X)}$

之所以叫生成模型是因为，模型表示了给定输入 $X$ 产生输出 $Y$ 的生成关系

判别方法由数据直接学习决策函数 $f(X)$ 或者条件概率分布 $P(Y|X)$ 作为预测的模型，即判别模型。判别方法关心的是对给定的输入 $X$ ，应该预测什么样的输出 $Y$ 。

生成方法的特点：生成方法可以还原出联合概率分布 $P(X,Y)$ ，而判别方法则不能；生成方法的学习收敛速度更快，即当样本容量增加的时候，学到的模型可以更快地收敛于真实模型；当存在隐变量时，仍可以用生成方法学习，此时判别方法就不能用。

判别方法的特点：判别方法直接学习的是条件概率 $P(Y|X)$ 或决策函数 $f(X)$ ，直接面对预测，往往学习的准确率更高；由于直接学习 $P(Y|X)$ 或 $f(X)$ ，可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。

1.8 监督学习应用

1.8.1 分类问题

分类是监督学习的一个核心问题。在监督学习中，当输出变量 $Y$ 取有限个离散值时，预测问题便成为分类问题。这时，输入变量 $X$ 可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器。分类器对新的输入进行输出的预测，称为分类。可能的输出称为类别。分类的类别为多个时，称为多类分类问题。

分类问题包括学习和分类两个过程。在学习过程中，根据己知的训练数据集利用有效的学习方法学习一个分类器；在分类过程中，利用学习的分类器对新的输入实例进行分类。

像目前计算机视觉中的物体识别、语义分割等等都算是分类问题，但算作是多分类问题，本书中仅讨论二分类问题

评价分类器性能的指标一般是分类准确率。其定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。也就是损失函数是 0-1 损失时测试数据集上的准确率。

对于二类分类问题常用的评价指标是精确率（precision）与召回率（recall）。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，4 种情况出现的总数分别记作:

TP：将正类预测为正类数；
FN：将正类预测为负类数；
FP：将负类预测为正类数；
TN：将负类预测为负类数。

精确率定义为：

$P=\frac{TP}{TP+FP}$

召回率定义为：

$R=\frac{TP}{TP+FN}$

此外，还有 $F_1$ 值，是精确率和召回率的调和均值，即

$\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}\\F_1=\frac{2TP}{2TP+FP+FN}$

精确率和召回率都高时， $F_1$ 值也会高。

1.8.2 标注问题

标注也是一个监督学习问题。可以认为标注问题是分类问题的一个推广，标注问题又是更复杂的结构预测问题的简单形式。标注问题的输入是一个观测序列，输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测。注意，可能的标记个数是有限的，但其组合所成的标记序列的个数是依序列长度呈指数级增长的。

评价标注模型的指标与评价分类模型的指标一样，常用的有标注准确率、精确率和召回率。其定义与分类模型相同。

1.8.3 回归问题

回归是监督学习的另一个重要问题。回归用于预测输入变量（自变量）和输出变量（因变量）之间的关系，特别是当输入变量的值发生变化时，输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合：选择一条函数曲线使其很好地拟合己知数据且很好地预测未知数据。

回归问题按照输入变量的个数，分为一元回归和多元回归；按照输入变量和输出变量之间关系的类型即模型的类型，分为线性回归和非线性回归。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,186评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,858评论 3赞 387
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 158,620评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,888评论 1赞 285
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,009评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,149评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,204评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,956评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,385评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,698评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,863评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,544评论 4赞 335
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,185评论 3赞 317
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,899评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,141评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,684评论 2赞 362
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,750评论 2赞 351

第一章 统计机器学习及监督学习概论（三）