1.4模型评与模型选择
1.4.1训练/测试误差
-
训练误差 是指模型Y=f(X)关于训练数据集的平均损失,其能够判断给定的问题是不是一个容易学习的问题:
训练误差表达式
(其中N表示训练样本容量) - 测试误差 则是模型Y=f(X)关于测试数据集的平均损失,其反应了学习方法对位置的测试数据集的预测能力(即 泛化能力 ):(即上面的N全都换成N`,表示测试样本容量)
1.4.2 过拟合与模型选择
-
过拟合:是指模型参数过多,导致其对已知数据一猜一个准但对于位置数据的准确率严重下降——>模型选择 是为了避免过拟合并提高模型的预测能力(将两者平衡好)
设M次多项式为:
-
解决问题步骤:
①确定模型复杂度,即确定M;
②在给定的模型复杂度下,按照经验风险最小化策求解参数,即多项式的系数。
具体来说就是
注意:随着M的增加,训练误差 会减小直至趋于0,但是 测试误差 则是随着M的增加先减小后增大。 而我们 最终目的 是使 测试误差 最小化。
1.5 正则化与交叉验证
1.5.1 正则化(根据训练集中常见模式来学习相对简单的模型)
一般形式:

其中,第一项为经验风险,第二项是正则化项,λ≥0为调整两者之间关系的

L1范数可以用于特征筛选,它可以使某些参数为0进而形成一稀疏矩阵;
而L2范数则能够有效防止过拟合,w只能趋于0,使得模型变简单。
- 奥卡姆剃刀原理:在所有可能选择的模型中,能够很好的解释已知数据并且十分简单的才是最好的模型
- 贝叶斯估计: 正则化项对应于模型的 先验概率 (根据以往经验得到模型),复杂的模型就有较小的先验概率,反之亦反。
1.5.2 交叉验证
若给定的样本数据足够够多,那么久把他们随机分为:
- 训练集,用于训练模型;
- 验证集,用于模型的选择;
- 测试集,用于最终对学习方法的评估。
分类:
-
简单交叉验证:将数据集随机分为两部分:训练集和测试集,然后再按流程选择模型;
2.S折交叉验证:将数据集平均分为S份,然后将其中S-1份作为训练集,剩下的一份作为测试集
S折交叉验证
3.留一交叉验证:2的特殊情况,S=N。
1.6 泛化能力
1.6.1 泛化误差
定义: 学到的模型f对 未知数据 预测的误差:

实际上就是所学习到模型的 期望风险
1.6.2 泛化误差上界
有时候无法比较误差值大小,就可以使用误差上界来进行比较
性质:
- 是样本容量的函数:当样本容量增加时,泛化上界就趋于0;
- 是假设空间容量的函数:假设空间容量越大,模型就越难学,那么其泛化上界也就越大。
二分类问题的泛化能力
定理:
对于 二分类问题,当假设空间是有限个函数的集合F={f1,f2,...,fd}时,对任意一个f∈F,只有以概率1-δ,0<δ<1,以下不等式成立:

R(f)时泛化误差。不等式右端即为泛化误差上界,其中第一项为训练误差,训练误差越小,泛化误差也小;第二项为N的单调递减函数,当N趋于无穷时趋于0/假设空间包含的函数越多,其值越大。
其中

d就是二分类问题的2,N为训练集容量。
1.7 生成模型与判别模型
- 生成模型:生成方法由数据学习 联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,该模型表示了给定输入X产生输出Y的生成关系。常见的模型有:朴素贝叶斯法和隐马尔可夫模型;
- 判别模型: 判别方法由数据直接学习 * 决策函数f(X)/条件概率分布P(Y|X)* 为预测模型,其更加关心对给定的输入X,应该预测出咋样的输出Y。常见的模型包括:k近邻法、感知机、决策树等。
-
他俩的特点如下图所示
1.8 监督学习应用
主要包括三个方面:分类问题、标注问题以回归问题。
1.8.1 分类问题 (输出为有限个离散变量)
- 分类器: 监督学习从一个数据中学习的一个分类模型/分类决策函数——>分类:分类器对新的输入进行输出的预测,当类别为多个时成为多分类问题;
- 过程: (1)学习,就是训练;(2)分类,就是分类器的应用;
-
分类准确率(评估指标):对于给定的测试数据集,分类器正确分类数量和总样本数之比;
image.png
对于二分类问题:

此时精确率(预测为正的样本中多少对了)定义为:

召回率(预测为正的样本占了真正为正的样本的比例)定义为:

调和值(F为他们俩的 调和平均值)定义为:

可以用分类的方法和领域:

1.8.2 标注问题(输入/出都是变量序列)
可以认为是分类问题的一种推广(从分类变成了标注吧大概)
- 目标:学习一个模型,使其能够对观测序列给出标记序列作为预测;
- 过程和上面一样的;
- 指标也是一样的;
-
方法,应用以及例子:
1.8.3 回归问题(输入/出都是连续变量)
回归用于预测输入变量和输出变量直接的关系,回归问题的学习等价于函数拟合。
回归模型: 表示匆匆输入变量到输出变量之间的映射的函数;

二、感知机
定义: 是一种二分类的线性分类模型,输入为实例的 特征向量 ,输出为实例的 类别 ,取+1/-1。属于判别模型,旨在求出将训练数据进行线性划分的分离超平面。
2.1感知机模型
-
定义/表现形式?:
其中,w=(w(1),w(2).....,w(n))∈R^n叫 权值(向量), b∈ R叫做 偏量,w·x表示他们俩的内积。
- 假设空间:定义在特征空间中的所有线性分类模型/器,即函数聚合{f|f(x)=w·x+b}
-
几何解释:线性方程w·x+b=0对应于特征空间R^n中的一个超平面S(此处为一条直线)
其中w是从超平面的法向量(正方面),b是其截距。超平面将特征空间划分为两个部分,位于两个部分的点被分为正负两类(训练数据n维则超平面为n-1维)
2.2 感知机学习策略
2.2.1 数据集的线性可分性(条件)
定义: 对于一个数据集,若可用一个超平面(如上面的直线)分开,则是线性可分;
2.2.2感知机学习策略
- 目标: 球的一个能够将训练集正实例点和负实例点 完全正确分开 的分离超平面;
-
若x0为正确分类点,则:
- 若x0为错误分类点,则:
那么损失函数就是所有误分类点到S的距离总和:
即可推出损失函数(即感知机学习的经验风险函数):
对于1/||w||它不影响结果的正负号,也不影响算法结果,所以可以不考虑
——>要使得损失函数最小化,M越小,总距离就越小,L是非负的。
梯度下降法:
-
直观理解:可以把梯度下降理解为找到最快的方式下山,对于每个点来说就是找到导数最小的方向并朝该方向前进(下降最快的方向);
-
概念: 梯度 指某函数在该点处最大的方向导数,沿该方向可取得最大变化率,▽=∂f(θ)/∂θ;
若f(θ)为凸的,可以通过此方法进行优化:
-
算法:
-
原理:
其中v为单位向量
累了,就这样把,该睡觉了



















