统计学习方法笔记02

李航. 统计学习方法[M]. 清华大学出版社, 2012.

1.4 模型评估与模型选择

训练误差(training error)

R_{emp}(\hat{f}) = \dfrac{1}{N} \sum_{i=1}^{N} L(y_i, \hat{f}(x_i))

测试误差(test error)

e_{test} = \dfrac{1}{N'} \sum_{i=1}^{N'} L(y_i, \hat{f}(x_i))

泛化能力(generalization ability):学习方法对未知数据的预测能力。

过拟合(over-fitting):学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。


1.5 正则化与交叉验证

1.5.1 正则化(regularization)

\min_{f\in \mathcal{F}} \left[ \dfrac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) + \lambda J(f) \right]

正则化项J(f)一般是模型复杂度的单调递增函数,\lambda \geq 0是调整经验风险与正则化项之间关系的系数。

奥卡姆剃刀(Occam's razor)原理:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。

  • 从贝叶斯估计的角度,正则化项对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率

1.5.2 交叉验证(cross validation)

  • 样本充足时:数据集=训练集+验证集+测试集
  • 数据不充足:交叉验证
    • 简单交叉验证:73分训练集和测试集
    • S折交叉验证:分成S个子集,每次用S-1个子集训练,1个子集测试
    • 留一交叉验证:S=N,在数据缺乏的情况下使用

1.6 泛化能力

泛化误差(generalization error):即期望风险

\begin{aligned}R_{exp}(\hat{f}) &= E_p[L(Y,\hat{f}(X))] \\&= \int_{\mathcal{X}\times\mathcal{Y}} L(y,\hat{f}(x)) P(x,y) dxdy\end{aligned}


根据经验风险\hat{R}(f) = \dfrac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))求解经验风险最小化函数

f_N = \arg \min_{f\in\mathcal{F}} \hat{R}(f) = \arg \min_{f\in\mathcal{F}} \left[ \dfrac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) \right]

人们更关心f_N的泛化能力(泛化误差):

R(f_N) = E[L(Y,f_N(X))]


定理1.1(泛化误差上界)

对二分类问题,当假设空间是有限个函数的集合\mathcal{F} = \{ f_1,f_2,\dots,f_d \}时,对任意一个函数f \in \mathcal{F},至少以概率1-\delta \in (0,1)的概率成立以下不等式:

R(f) \leq \hat{R}(f) + \varepsilon(d,N,\delta)

其中,

\varepsilon(d,N,\delta) = \sqrt{\dfrac{1}{2N} (\log d - \log \delta)}

证明过程利用Hoeffding不等式,具体参考《统计学习方法 第二版》第26-27页。上式左端为泛化误差,右端为泛化误差上界。


1.7 生成模型与判别模型

  • 生成模型(generative model):由数据学习联合分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型
    • 可以还原出联合概率分布
    • 学习收敛速度更快
    • 当存在隐变量时,仍可以用生成方法
  • 判别模型(discriminative model):由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型
    • 直接面对模型,准确率更高
    • 对数据进行抽象,简化学习问题

1.8 监督学习应用

1.8.1 分类问题

|真实情况|预测结果| |
|:----:|:----|:----:|:----|:----:|:----|
| |正例|反例|
|正例|TP|FN|
|反例|FP|TN|

精确率(precision)

P=\dfrac{TP}{TP+FP}

召回率(recall)

R=\dfrac{TP}{TP+FN}

F1值

F_1 = \dfrac{2}{\dfrac{1}{P}+\dfrac{1}{R}} = \dfrac{2PR}{P+R} = \dfrac{2TP}{2TP+FP+FN}

1.8.2 标注问题

标注是分类问题的一种推广,标记问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。

1.8.3 回归问题

回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归学习最常用的损失函数是平方损失函数,一般可用最小二乘法求解。


第二章 感知机

2.1 感知机模型

定义2.1(感知机)

假设输入空间(特征空间)是\mathcal{X} \subseteq \mathbb{R}^n,输出空间是\mathcal{Y} = \{+1,-1\}。输入x \in \mathcal{X}表示实例的特征向量,对应于输入空间(特征空间)的点;输出y \in \mathcal{Y}表示实例的类别。由输入空间到输出空间的如下函数:

f(x) = sign(\omega \cdot x+b)

称为感知机。其中\omega \in\mathbb{R}^n叫作权值或权值向量(weight vector),b\in\mathbb{R}叫作偏置(bias),sign是符号函数。

感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面(separating hyperplane)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353

推荐阅读更多精彩内容