统计学习方法笔记02

李航. 统计学习方法[M]. 清华大学出版社, 2012.

1.4 模型评估与模型选择

训练误差(training error)

R_{emp}(\hat{f}) = \dfrac{1}{N} \sum_{i=1}^{N} L(y_i, \hat{f}(x_i))

测试误差(test error)

e_{test} = \dfrac{1}{N'} \sum_{i=1}^{N'} L(y_i, \hat{f}(x_i))

泛化能力(generalization ability):学习方法对未知数据的预测能力。

过拟合(over-fitting):学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。


1.5 正则化与交叉验证

1.5.1 正则化(regularization)

\min_{f\in \mathcal{F}} \left[ \dfrac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) + \lambda J(f) \right]

正则化项J(f)一般是模型复杂度的单调递增函数,\lambda \geq 0是调整经验风险与正则化项之间关系的系数。

奥卡姆剃刀(Occam's razor)原理:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。

  • 从贝叶斯估计的角度,正则化项对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率

1.5.2 交叉验证(cross validation)

  • 样本充足时:数据集=训练集+验证集+测试集
  • 数据不充足:交叉验证
    • 简单交叉验证:73分训练集和测试集
    • S折交叉验证:分成S个子集,每次用S-1个子集训练,1个子集测试
    • 留一交叉验证:S=N,在数据缺乏的情况下使用

1.6 泛化能力

泛化误差(generalization error):即期望风险

\begin{aligned}R_{exp}(\hat{f}) &= E_p[L(Y,\hat{f}(X))] \\&= \int_{\mathcal{X}\times\mathcal{Y}} L(y,\hat{f}(x)) P(x,y) dxdy\end{aligned}


根据经验风险\hat{R}(f) = \dfrac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))求解经验风险最小化函数

f_N = \arg \min_{f\in\mathcal{F}} \hat{R}(f) = \arg \min_{f\in\mathcal{F}} \left[ \dfrac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) \right]

人们更关心f_N的泛化能力(泛化误差):

R(f_N) = E[L(Y,f_N(X))]


定理1.1(泛化误差上界)

对二分类问题,当假设空间是有限个函数的集合\mathcal{F} = \{ f_1,f_2,\dots,f_d \}时,对任意一个函数f \in \mathcal{F},至少以概率1-\delta \in (0,1)的概率成立以下不等式:

R(f) \leq \hat{R}(f) + \varepsilon(d,N,\delta)

其中,

\varepsilon(d,N,\delta) = \sqrt{\dfrac{1}{2N} (\log d - \log \delta)}

证明过程利用Hoeffding不等式,具体参考《统计学习方法 第二版》第26-27页。上式左端为泛化误差,右端为泛化误差上界。


1.7 生成模型与判别模型

  • 生成模型(generative model):由数据学习联合分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型
    • 可以还原出联合概率分布
    • 学习收敛速度更快
    • 当存在隐变量时,仍可以用生成方法
  • 判别模型(discriminative model):由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型
    • 直接面对模型,准确率更高
    • 对数据进行抽象,简化学习问题

1.8 监督学习应用

1.8.1 分类问题

|真实情况|预测结果| |
|:----:|:----|:----:|:----|:----:|:----|
| |正例|反例|
|正例|TP|FN|
|反例|FP|TN|

精确率(precision)

P=\dfrac{TP}{TP+FP}

召回率(recall)

R=\dfrac{TP}{TP+FN}

F1值

F_1 = \dfrac{2}{\dfrac{1}{P}+\dfrac{1}{R}} = \dfrac{2PR}{P+R} = \dfrac{2TP}{2TP+FP+FN}

1.8.2 标注问题

标注是分类问题的一种推广,标记问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。

1.8.3 回归问题

回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归学习最常用的损失函数是平方损失函数,一般可用最小二乘法求解。


第二章 感知机

2.1 感知机模型

定义2.1(感知机)

假设输入空间(特征空间)是\mathcal{X} \subseteq \mathbb{R}^n,输出空间是\mathcal{Y} = \{+1,-1\}。输入x \in \mathcal{X}表示实例的特征向量,对应于输入空间(特征空间)的点;输出y \in \mathcal{Y}表示实例的类别。由输入空间到输出空间的如下函数:

f(x) = sign(\omega \cdot x+b)

称为感知机。其中\omega \in\mathbb{R}^n叫作权值或权值向量(weight vector),b\in\mathbb{R}叫作偏置(bias),sign是符号函数。

感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面(separating hyperplane)。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容