登录注册写文章

2022.7.22 统计学习方法1.4-2.2总结

2022.7.22 统计学习方法1.4-2.2总结

1.4模型评与模型选择

1.4.1训练/测试误差

训练误差 是指模型Y=f(X)关于训练数据集的平均损失，其能够判断给定的问题是不是一个容易学习的问题：

训练误差表达式

（其中N表示训练样本容量）
测试误差 则是模型Y=f(X)关于测试数据集的平均损失，其反应了学习方法对位置的测试数据集的预测能力（即 泛化能力 ）：(即上面的N全都换成N`，表示测试样本容量）

1.4.2 过拟合与模型选择

过拟合：是指模型参数过多，导致其对已知数据一猜一个准但对于位置数据的准确率严重下降——>模型选择 是为了避免过拟合并提高模型的预测能力(将两者平衡好)
设M次多项式为:
解决问题步骤:
①确定模型复杂度,即确定M;
②在给定的模型复杂度下，按照经验风险最小化策求解参数，即多项式的系数。
具体来说就是

注意：随着M的增加，训练误差 会减小直至趋于0，但是 测试误差 则是随着M的增加先减小后增大。而我们 最终目的 是使 测试误差 最小化。

1.5 正则化与交叉验证

1.5.1 正则化（根据训练集中常见模式来学习相对简单的模型）

一般形式：

其中，第一项为经验风险，第二项是正则化项，λ≥0为调整两者之间关系的

L1范数可以用于特征筛选，它可以使某些参数为0进而形成一稀疏矩阵；
而L2范数则能够有效防止过拟合，w只能趋于0，使得模型变简单。

奥卡姆剃刀原理：在所有可能选择的模型中，能够很好的解释已知数据并且十分简单的才是最好的模型
贝叶斯估计： 正则化项对应于模型的 先验概率 （根据以往经验得到模型），复杂的模型就有较小的先验概率，反之亦反。

1.5.2 交叉验证

若给定的样本数据足够够多，那么久把他们随机分为：

训练集，用于训练模型；
验证集，用于模型的选择；
测试集，用于最终对学习方法的评估。

分类：

简单交叉验证：将数据集随机分为两部分：训练集和测试集，然后再按流程选择模型；
2.S折交叉验证：将数据集平均分为S份，然后将其中S-1份作为训练集，剩下的一份作为测试集

S折交叉验证

3.留一交叉验证：2的特殊情况，S=N。

1.6 泛化能力

1.6.1 泛化误差

定义： 学到的模型f对 未知数据 预测的误差：

实际上就是所学习到模型的 期望风险

1.6.2 泛化误差上界

有时候无法比较误差值大小，就可以使用误差上界来进行比较
性质：

是样本容量的函数：当样本容量增加时，泛化上界就趋于0；
是假设空间容量的函数：假设空间容量越大，模型就越难学，那么其泛化上界也就越大。

二分类问题的泛化能力

定理：
对于 二分类问题，当假设空间是有限个函数的集合F={f1,f2,...,fd}时，对任意一个f∈F，只有以概率1-δ，0<δ<1，以下不等式成立：

R(f)时泛化误差。不等式右端即为泛化误差上界，其中第一项为训练误差，训练误差越小，泛化误差也小；第二项为N的单调递减函数，当N趋于无穷时趋于0/假设空间包含的函数越多，其值越大。

其中

d就是二分类问题的2，N为训练集容量。

1.7 生成模型与判别模型

生成模型：生成方法由数据学习 联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测模型，该模型表示了给定输入X产生输出Y的生成关系。常见的模型有：朴素贝叶斯法和隐马尔可夫模型；
判别模型： 判别方法由数据直接学习 * 决策函数f(X)/条件概率分布P(Y|X)* 为预测模型，其更加关心对给定的输入X，应该预测出咋样的输出Y。常见的模型包括：k近邻法、感知机、决策树等。
他俩的特点如下图所示

1.8 监督学习应用

主要包括三个方面：分类问题、标注问题以回归问题。

1.8.1 分类问题（输出为有限个离散变量）

分类器： 监督学习从一个数据中学习的一个分类模型/分类决策函数——>分类：分类器对新的输入进行输出的预测，当类别为多个时成为多分类问题；
过程： （1）学习，就是训练；（2）分类，就是分类器的应用；
分类准确率（评估指标）：对于给定的测试数据集，分类器正确分类数量和总样本数之比；

image.png

对于二分类问题：

预测正确与否的情况

此时精确率（预测为正的样本中多少对了）定义为：

召回率（预测为正的样本占了真正为正的样本的比例）定义为：

调和值（F为他们俩的 调和平均值）定义为：

可以用分类的方法和领域：

1.8.2 标注问题（输入/出都是变量序列）

可以认为是分类问题的一种推广（从分类变成了标注吧大概）

目标：学习一个模型，使其能够对观测序列给出标记序列作为预测；
过程和上面一样的；
指标也是一样的；
方法，应用以及例子：

1.8.3 回归问题（输入/出都是连续变量)

回归用于预测输入变量和输出变量直接的关系，回归问题的学习等价于函数拟合。
回归模型： 表示匆匆输入变量到输出变量之间的映射的函数；

回归问题分类，损失函数以及应用

二、感知机

定义： 是一种二分类的线性分类模型，输入为实例的 特征向量 ，输出为实例的类别，取+1/-1。属于判别模型，旨在求出将训练数据进行线性划分的分离超平面。

2.1感知机模型

定义/表现形式？：

其中，w=（w(1),w(2).....,w(n))∈R^n叫 权值（向量）， b∈ R叫做偏量，w·x表示他们俩的内积。

假设空间：定义在特征空间中的所有线性分类模型/器，即函数聚合{f|f(x)=w·x+b}
几何解释：线性方程w·x+b=0对应于特征空间R^n中的一个超平面S（此处为一条直线）

其中w是从超平面的法向量（正方面），b是其截距。超平面将特征空间划分为两个部分，位于两个部分的点被分为正负两类（训练数据n维则超平面为n-1维）

2.2 感知机学习策略

2.2.1 数据集的线性可分性（条件）

定义： 对于一个数据集，若可用一个超平面（如上面的直线）分开，则是线性可分；

2.2.2感知机学习策略

目标： 球的一个能够将训练集正实例点和负实例点 完全正确分开 的分离超平面；
若x0为正确分类点，则：
若x0为错误分类点，则：

那么损失函数就是所有误分类点到S的距离总和：

即可推出损失函数（即感知机学习的经验风险函数）：

对于1/||w||它不影响结果的正负号，也不影响算法结果，所以可以不考虑

——>要使得损失函数最小化，M越小，总距离就越小，L是非负的。

梯度下降法：

直观理解：可以把梯度下降理解为找到最快的方式下山，对于每个点来说就是找到导数最小的方向并朝该方向前进（下降最快的方向）；
概念： 梯度指某函数在该点处最大的方向导数，沿该方向可取得最大变化率，▽=∂f(θ)/∂θ；
若f(θ)为凸的，可以通过此方法进行优化：
算法：
原理：

其中v为单位向量

~~累了，就这样把，该睡觉了~~

最后编辑于：2022.07.23 11:09:43

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

统计学习方法1.4-2.1 笔记
1.4 模型评估与模型选择训练误差与测试误差关于模型的拟合好坏，计算训练集的训练误差进行衡量。关于模型预测的好...
千容安阅读 3,950评论 0赞 11
统计学习方法||章1：统计学习方法概论
统计学习统计学习的对象data ：计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。数据的基...
周运来就是我阅读 4,781评论 0赞 8

统计学习方法笔记：1.统计学习方法概论
这是我参加mlhub123组织的书籍共读计划的读书笔记，活动见mlhub第一期读书计划阅读章节：第一章：统计学习...
howie6879阅读 5,523评论 0赞 7
统计学习方法(一)——统计学习方法概论
文章作者：Tyan博客：noahsnail.com | CSDN | 简书 1. 统计学习方法概论本文是统计学习...
SnailTyan阅读 8,618评论 0赞 7
[强基计划] 统计学习方法以及监督学习方法的讨论
统计学习以及监督学习的讨论 1.1 统计学习学习的定义是什么呢？Herbert A Simon认为，如果...
zxymic阅读 4,606评论 0赞 2

赞1赞

赞赏

手机看全文