2022.7.22 统计学习方法1.4-2.2总结

1.4模型评与模型选择

1.4.1训练/测试误差

  • 训练误差 是指模型Y=f(X)关于训练数据集的平均损失,其能够判断给定的问题是不是一个容易学习的问题:
    训练误差表达式

    (其中N表示训练样本容量)
  • 测试误差 则是模型Y=f(X)关于测试数据集的平均损失,其反应了学习方法对位置的测试数据集的预测能力(即 泛化能力 ):(即上面的N全都换成N`,表示测试样本容量)

1.4.2 过拟合与模型选择

  • 过拟合:是指模型参数过多,导致其对已知数据一猜一个准但对于位置数据的准确率严重下降——>模型选择 是为了避免过拟合并提高模型的预测能力(将两者平衡好)
    设M次多项式为:
  • 解决问题步骤:
    确定模型复杂度,即确定M;
    在给定的模型复杂度下,按照经验风险最小化策求解参数,即多项式的系数。
    具体来说就是

注意:随着M的增加,训练误差 会减小直至趋于0,但是 测试误差 则是随着M的增加先减小后增大。 而我们 最终目的 是使 测试误差 最小化。


1.5 正则化与交叉验证

1.5.1 正则化(根据训练集中常见模式来学习相对简单的模型)

一般形式:


其中,第一项为经验风险,第二项是正则化项,λ≥0为调整两者之间关系的

L1范数可以用于特征筛选,它可以使某些参数为0进而形成一稀疏矩阵;
而L2范数则能够有效防止过拟合,w只能趋于0,使得模型变简单。

  • 奥卡姆剃刀原理:在所有可能选择的模型中,能够很好的解释已知数据并且十分简单的才是最好的模型
  • 贝叶斯估计: 正则化项对应于模型的 先验概率 (根据以往经验得到模型),复杂的模型就有较小的先验概率,反之亦反。

1.5.2 交叉验证

若给定的样本数据足够够多,那么久把他们随机分为:

  • 训练集,用于训练模型;
  • 验证集,用于模型的选择;
  • 测试集,用于最终对学习方法的评估。

分类:

  1. 简单交叉验证:将数据集随机分为两部分:训练集和测试集,然后再按流程选择模型;
    2.S折交叉验证:将数据集平均分为S份,然后将其中S-1份作为训练集,剩下的一份作为测试集


    S折交叉验证

    3.留一交叉验证:2的特殊情况,S=N。


1.6 泛化能力

1.6.1 泛化误差

定义: 学到的模型f对 未知数据 预测的误差:


实际上就是所学习到模型的 期望风险

1.6.2 泛化误差上界

有时候无法比较误差值大小,就可以使用误差上界来进行比较
性质:

  • 样本容量的函数:当样本容量增加时,泛化上界就趋于0;
  • 假设空间容量的函数:假设空间容量越大,模型就越难学,那么其泛化上界也就越大。
    二分类问题的泛化能力

定理:
对于 二分类问题,当假设空间是有限个函数的集合F={f1,f2,...,fd}时,对任意一个f∈F,只有以概率1-δ,0<δ<1,以下不等式成立:

R(f)时泛化误差。不等式右端即为泛化误差上界,其中第一项为训练误差,训练误差越小,泛化误差也小;第二项为N的单调递减函数,当N趋于无穷时趋于0/假设空间包含的函数越多,其值越大。

其中



d就是二分类问题的2,N为训练集容量。


1.7 生成模型与判别模型

  • 生成模型:生成方法由数据学习 联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,该模型表示了给定输入X产生输出Y的生成关系。常见的模型有:朴素贝叶斯法和隐马尔可夫模型;
  • 判别模型: 判别方法由数据直接学习 * 决策函数f(X)/条件概率分布P(Y|X)* 为预测模型,其更加关心对给定的输入X,应该预测出咋样的输出Y。常见的模型包括:k近邻法、感知机、决策树等。
  • 他俩的特点如下图所示



1.8 监督学习应用

主要包括三个方面:分类问题、标注问题以回归问题。

1.8.1 分类问题 (输出为有限个离散变量)

  • 分类器: 监督学习从一个数据中学习的一个分类模型/分类决策函数——>分类:分类器对新的输入进行输出的预测,当类别为多个时成为多分类问题;
  • 过程: (1)学习,就是训练;(2)分类,就是分类器的应用;
  • 分类准确率(评估指标):对于给定的测试数据集,分类器正确分类数量和总样本数之比;
    image.png

对于二分类问题:


预测正确与否的情况

此时精确率(预测为正的样本中多少对了)定义为:


召回率(预测为正的样本占了真正为正的样本的比例)定义为:

调和值(F为他们俩的 调和平均值)定义为:

可以用分类的方法和领域:

1.8.2 标注问题(输入/出都是变量序列)

可以认为是分类问题的一种推广(从分类变成了标注吧大概)

  • 目标:学习一个模型,使其能够对观测序列给出标记序列作为预测;
  • 过程和上面一样的;
  • 指标也是一样的;
  • 方法,应用以及例子

1.8.3 回归问题(输入/出都是连续变量)

回归用于预测输入变量和输出变量直接的关系,回归问题的学习等价于函数拟合
回归模型: 表示匆匆输入变量到输出变量之间的映射的函数;

回归问题分类,损失函数以及应用


二、感知机

定义: 是一种二分类的线性分类模型,输入为实例的 特征向量输出为实例的 类别 ,取+1/-1。属于判别模型旨在求出将训练数据进行线性划分的分离超平面。

2.1感知机模型

  • 定义/表现形式?:

其中,w=(w(1),w(2).....,w(n))∈R^n叫 权值(向量), b∈ R叫做 偏量,w·x表示他们俩的内积。

  • 假设空间:定义在特征空间中的所有线性分类模型/器,即函数聚合{f|f(x)=w·x+b}
  • 几何解释:线性方程w·x+b=0对应于特征空间R^n中的一个超平面S(此处为一条直线)

其中w是从超平面的法向量(正方面),b是其截距。超平面将特征空间划分为两个部分,位于两个部分的点被分为正负两类(训练数据n维则超平面为n-1维)


2.2 感知机学习策略

2.2.1 数据集的线性可分性(条件)

定义: 对于一个数据集,若可用一个超平面(如上面的直线)分开,则是线性可分;

2.2.2感知机学习策略

  • 目标: 球的一个能够将训练集正实例点和负实例点 完全正确分开 的分离超平面;
  • 若x0为正确分类点,则:


  • 若x0为错误分类点,则:

    那么损失函数就是所有误分类点到S的距离总和:

    即可推出损失函数(即感知机学习的经验风险函数):

对于1/||w||它不影响结果的正负号,也不影响算法结果,所以可以不考虑

——>要使得损失函数最小化,M越小,总距离就越小,L是非负的

梯度下降法:

  • 直观理解:可以把梯度下降理解为找到最快的方式下山,对于每个点来说就是找到导数最小的方向并朝该方向前进(下降最快的方向);
  • 概念: 梯度 指某函数在该点处最大的方向导数,沿该方向可取得最大变化率,▽=∂f(θ)/∂θ;
    若f(θ)为凸的,可以通过此方法进行优化:
  • 算法:
  • 原理:


其中v为单位向量

累了,就这样把,该睡觉了

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容