统计学习方法笔记02

李航. 统计学习方法[M]. 清华大学出版社, 2012.

1.4 模型评估与模型选择

训练误差(training error)：

$R_{emp}(\hat{f}) = \dfrac{1}{N} \sum_{i=1}^{N} L(y_i, \hat{f}(x_i))$

测试误差(test error)：

$e_{test} = \dfrac{1}{N'} \sum_{i=1}^{N'} L(y_i, \hat{f}(x_i))$

泛化能力(generalization ability)：学习方法对未知数据的预测能力。

过拟合(over-fitting)：学习时选择的模型所包含的参数过多，以至出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象。

1.5 正则化与交叉验证

1.5.1 正则化(regularization)：

$\min_{f\in \mathcal{F}} \left[ \dfrac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) + \lambda J(f) \right]$

正则化项 $J(f)$ 一般是模型复杂度的单调递增函数， $\lambda \geq 0$ 是调整经验风险与正则化项之间关系的系数。

奥卡姆剃刀(Occam's razor)原理：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型。

从贝叶斯估计的角度，正则化项对应于模型的先验概率，可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率

1.5.2 交叉验证(cross validation)

样本充足时：数据集=训练集+验证集+测试集
数据不充足：交叉验证
- 简单交叉验证：73分训练集和测试集
- S折交叉验证：分成S个子集，每次用S-1个子集训练，1个子集测试
- 留一交叉验证：S=N，在数据缺乏的情况下使用

1.6 泛化能力

泛化误差(generalization error)：即期望风险

$\begin{aligned}R_{exp}(\hat{f}) &= E_p[L(Y,\hat{f}(X))] \\&= \int_{\mathcal{X}\times\mathcal{Y}} L(y,\hat{f}(x)) P(x,y) dxdy\end{aligned}$

根据经验风险 $\hat{R}(f) = \dfrac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))$ 求解经验风险最小化函数

$f_N = \arg \min_{f\in\mathcal{F}} \hat{R}(f) = \arg \min_{f\in\mathcal{F}} \left[ \dfrac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) \right]$

人们更关心 $f_N$ 的泛化能力（泛化误差）：

$R(f_N) = E[L(Y,f_N(X))]$

定理1.1（泛化误差上界）

对二分类问题，当假设空间是有限个函数的集合 $\mathcal{F} = \{ f_1,f_2,\dots,f_d \}$ 时，对任意一个函数 $f \in \mathcal{F}$ ，至少以概率 $1-\delta \in (0,1)$ 的概率成立以下不等式：

$R(f) \leq \hat{R}(f) + \varepsilon(d,N,\delta)$

其中，

$\varepsilon(d,N,\delta) = \sqrt{\dfrac{1}{2N} (\log d - \log \delta)}$

证明过程利用Hoeffding不等式，具体参考《统计学习方法第二版》第26-27页。上式左端为泛化误差，右端为泛化误差上界。

1.7 生成模型与判别模型

生成模型(generative model)：由数据学习联合分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型
- 可以还原出联合概率分布
- 学习收敛速度更快
- 当存在隐变量时，仍可以用生成方法
判别模型(discriminative model)：由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型
- 直接面对模型，准确率更高
- 对数据进行抽象，简化学习问题

1.8 监督学习应用

1.8.1 分类问题

|真实情况|预测结果| |
|:----:|:----|:----:|:----|:----:|:----|
| |正例|反例|
|正例|TP|FN|
|反例|FP|TN|

精确率(precision)

$P=\dfrac{TP}{TP+FP}$

召回率(recall)

$R=\dfrac{TP}{TP+FN}$

F1值

$F_1 = \dfrac{2}{\dfrac{1}{P}+\dfrac{1}{R}} = \dfrac{2PR}{P+R} = \dfrac{2TP}{2TP+FP+FN}$

1.8.2 标注问题

标注是分类问题的一种推广，标记问题的输入是一个观测序列，输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测。

1.8.3 回归问题

回归用于预测输入变量和输出变量之间的关系，特别是当输入变量的值发生变化时，输出变量的值随之发生的变化。回归学习最常用的损失函数是平方损失函数，一般可用最小二乘法求解。

第二章感知机

2.1 感知机模型

定义2.1（感知机）

假设输入空间（特征空间）是 $\mathcal{X} \subseteq \mathbb{R}^n$ ，输出空间是 $\mathcal{Y} = \{+1,-1\}$ 。输入 $x \in \mathcal{X}$ 表示实例的特征向量，对应于输入空间（特征空间）的点；输出 $y \in \mathcal{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数：

$f(x) = sign(\omega \cdot x+b)$

称为感知机。其中 $\omega \in\mathbb{R}^n$ 叫作权值或权值向量(weight vector)， $b\in\mathbb{R}$ 叫作偏置(bias)，sign是符号函数。

感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面(separating hyperplane)。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,470评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,393评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,577评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,176评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,189评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,155评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,041评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,903评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,319评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,539评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,703评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,417评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,013评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,664评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,818评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,711评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,601评论 2赞 353