李航. 统计学习方法[M]. 清华大学出版社, 2012.
1.4 模型评估与模型选择
训练误差(training error):
测试误差(test error):
泛化能力(generalization ability):学习方法对未知数据的预测能力。
过拟合(over-fitting):学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
1.5 正则化与交叉验证
1.5.1 正则化(regularization):
正则化项一般是模型复杂度的单调递增函数,是调整经验风险与正则化项之间关系的系数。
奥卡姆剃刀(Occam's razor)原理:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。
- 从贝叶斯估计的角度,正则化项对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率
1.5.2 交叉验证(cross validation)
- 样本充足时:数据集=训练集+验证集+测试集
- 数据不充足:交叉验证
- 简单交叉验证:73分训练集和测试集
- S折交叉验证:分成S个子集,每次用S-1个子集训练,1个子集测试
- 留一交叉验证:S=N,在数据缺乏的情况下使用
1.6 泛化能力
泛化误差(generalization error):即期望风险
根据经验风险求解经验风险最小化函数
人们更关心的泛化能力(泛化误差):
定理1.1(泛化误差上界)
对二分类问题,当假设空间是有限个函数的集合时,对任意一个函数,至少以概率的概率成立以下不等式:
其中,
证明过程利用Hoeffding不等式,具体参考《统计学习方法 第二版》第26-27页。上式左端为泛化误差,右端为泛化误差上界。
1.7 生成模型与判别模型
- 生成模型(generative model):由数据学习联合分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型
- 可以还原出联合概率分布
- 学习收敛速度更快
- 当存在隐变量时,仍可以用生成方法
- 判别模型(discriminative model):由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型
- 直接面对模型,准确率更高
- 对数据进行抽象,简化学习问题
1.8 监督学习应用
1.8.1 分类问题
|真实情况|预测结果| |
|:----:|:----|:----:|:----|:----:|:----|
| |正例|反例|
|正例|TP|FN|
|反例|FP|TN|
精确率(precision)
召回率(recall)
F1值
1.8.2 标注问题
标注是分类问题的一种推广,标记问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
1.8.3 回归问题
回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归学习最常用的损失函数是平方损失函数,一般可用最小二乘法求解。
第二章 感知机
2.1 感知机模型
定义2.1(感知机)
假设输入空间(特征空间)是,输出空间是。输入表示实例的特征向量,对应于输入空间(特征空间)的点;输出表示实例的类别。由输入空间到输出空间的如下函数:
称为感知机。其中叫作权值或权值向量(weight vector),叫作偏置(bias),sign是符号函数。
感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面(separating hyperplane)。