1、统计学习和监督学习的概论

1.1 统计学习

1 统计学习的特点

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科，又称统计机器学习。其特点是：

以计算机和网络为平台；
以数据为研究对象；
目的是对数据进行预测与分析；
以方法为中心，构建模型；
是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。

1.2 统计学习的分类

1.2.1 基本分类

监督学习

(1) 监督学习的组成

监督学习是从有标注的数据中学习预测模型的机器学习问题。所谓有标注的数据，指的是带有明确结果的数据。

每一个具体的输入是一个实例，或称为样本，包括特征向量和标记。

样本的特征向量通常表示为：

$x=(x^{(1)},x^{(2)},x^{(3)},\cdots,x^{(n)})^T$

第 $i$ 个变量表示为：

$x_i=(x^{(1)}_i,x^{(2)}_i,x^{(3)}_i,\cdots,x^{(n)}_i)^T$

数据集表示为：

$T=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),\cdots,(x_n,y_n)\}$

输出变量为连续值的称为回归问题，输出变量为离散值的称为分类问题。

(2) 联合概率分布

监督学习假设输入与输出的变量X和Y，遵循联合概率分布P(X, Y)。注意这个概率分布是未知的，且数据样本是依据这个分布独立同分布产生的。

(3) 假设空间

模型由输入空间到输出空间的映射集合，称为假设空间，可以是概率模型或非概率模型，分别由 $条件概率P(X|Y)或决策函数Y=f(X)$ 表示。

(4) 问题的形式化

监督学习分为学习和预测两个过程：

1.png

无监督学习

无监督学习是没有标注的数据中学习预测模型的机器学习问题。

1.3 统计学习方法三要素

1.3.1 模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间 $F$ 包含所有的可能的条件概率分布或决策函数。

1.3.2 策略

有了假设空间，接着需要考虑按照什么样的准则学习或选择最有的模型。

1.3.2.1 损失函数与风险函数

在假设空间中选择特定的模型作为决策函数，对于给定的输入X，其输出 $f(X)$ 与真实值Y可能相同也可能不同，用损失函数或代价函数来度量预测错误的程度。常用的损失函数有：

0-1损失函数；
平方损失函数；
绝对损失函数；
对数损失函数。

损失函数越小，模型越好。损失函数的期望是：
$R_{exp}(f)=E_p[L(Y,f(X))] =\int_{X×Y}L(y,f(x))P(x,y)dxdy$
这个是平均意义下的损失，称为风险函数或期望损失。学习的目标就是找到期望损失最小的模型。

由于联合概率分布未知，因此期望损失不能直接计算。

对于一个训练集，其平均损失称为经验风险：
$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))$
当训练集样本数量趋于无穷时，经验风险就会无限接近于期望风险。但由于样本数量总是有限的，导致两者往往并不相同，这时有两个基本策略。

1.3.2.2 经验风险最小化与结构风险最小化

经验风险最小化原则认为，经验风险最小的模型就是最优模型：
$\min_{f\in F}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))$
当样本足够大时，这种方法很好，当样本量很小时，容易产生过拟合现象。

结构风险最小化就是为了防止过拟合提出的策略，等价于正则化。

结构风险最小化是在经验风险上加上表示模型复杂度的正则化项：
$R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)$
模型越复杂， $J(f)$ 就越大。 $\lambda≥0$ 是系数，权衡经验风险与模型复杂度。结构风险小需要经验风险与模型复杂度同时小。

由此，监督学习问题就变为了经验风险或结构风险函数的最优化问题。

1.3.3 算法

就是通过数学方法等将结构风险函数得出最优解。

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

训练误差是模型关于训练集的平均损失；测试误差是模型关于测试集的平均损失。训练误差通常不太重要，测试误差较为重要，反应了模型对未知数据的预测能力好坏，称为泛化能力。

1.4.2 过拟合与模型选择

一味追求对训练集的预测能力，通常导致模型复杂度比真正好的模型复杂度更高，以至于在测试集上表现较为糟糕，称之为过拟合。其关系可如图所示：

2.png

1.5 正则化与检查验证

1.5.1 正则化

正则化是结构风险最小化策略的实现。正则化一般是模型复杂度的单调递增函数，因此正则化项可以是模型参数向量的范数，可以取不同的形式，例如当损失函数是平方损失，正则化项可以是参数向量的 $L_2$ 范数。

正则化符合奥卡姆剃刀原则。

1.5.2 交叉验证

在数据不充分时，使用交叉验证，主要有3类：

简单交叉验证；
S折交叉验证；
留一交叉验证。

1.6 泛化能力

1.6.1 泛化误差

泛化能力指的是由训练集学习到的模型对未知数据的预测能力。

泛化误差反映了学习方法的泛化能力，泛化误差越小，学习能力越有效。

1.6.2 泛化误差上界

学习方法的泛化误差分析是通过研究泛化误差概率上界进行的，称为泛化误差上界。通过比较不同方法的泛化误差上界的大小来比较它们的优劣。

泛化误差上界通常有两个性质：

是样本容量的函数，样本越多，泛化上界趋于0；
是假设空间容量的函数，假设空间容量越大，模型越难学习，泛化误差上界越大。

1. 统计学习和监督学习的概论