统计学习基础第一章总结

样本（实例）： $x \in X \subseteq R^m$ , X表示输入空间。 $y \in Y \subseteq R^q$ ，Y表示输出空间。通常任务一个样本是依联合概率分布P(X,Y)独立产生的。

特征空间：利用统一的规律在每条样本中施加提取特征的映射 $feature: X \to F$ 。在统计学习基础中基本不考虑特征提取这一步（除了SVM通过核函数隐式提取特征），因此直接认为X=F。

数据集： $\begin{equation}\begin{aligned}D_x &= \{x_i \in X | i=1,2,\dots,n_d, n_d \in R_+\} \\D_y &= \{y_i \in Y | i=1,2,\dots,n_d, n_d \in R_+\} \\T &= \{(x_1,y_1),(x_2,y_2),\dots,(x_{n_d},y_{n_d})\}\end{aligned}\end{equation}$

模型： $f \in \mathcal{F} \subseteq \{\rho: F \to Y \}$ , $\mathcal{F}$ 是事先假定的函数空间，通常是由参数决定的函数族构成的空间，因此也可以写成 $\mathcal{F} = \{f:y=f_\theta(X), \theta \in R^h\}$ 。对于生成模型，则是 $\mathcal{F} = \{f:P(y|x)=f_\theta(x,y), \theta \in R^h\}$ 。（不理解生成模型和判别模型的本质差异在哪里）

评判标准（策略）：预先假定损失函数，计算根据模型预测的输出与实际输出的误差，据此求出最优的模型。对样本点损失函数 $L: (x,y,f) \to R$ ，对整个数据集的损失函数 $L_D:(X,Y,f) \to R$ ，只有数据集满足独立性假设才可能有 $L_D(D_x,D_y,f) = \sum_T L(x,y,f)$ 。损失函数的期望 $R_f = E_{(x,y)}[L(x,y,f)]$ 是模型关于联合分布(X,Y)的的平均损失，损失函数在数据集上的平均损失 $R_{emp}(f) = \frac{1}{n_d} \sum_i L(x_i,y_i,f)$ 。风险函数=损失函数 + 模型复杂度，即 $R_{srm}(f) = R_f + J_f$ ，可以分为经验风险和结构风险。

算法：求解 $argmin_f R_{srm}(f)$ 的方法。

学习可以看成是在给定输入输出的联合分布的以及评判标准的情况下，在假定的空间（feature+f）里寻找最优的拟合函数的过程。但是由于输入输出的联合分布是未知的，因此我们只能在假定样本独立同分布的情况下，认为训练集中的样本充分体现了联合分布的特征，并据此来求取针对训练集最优的拟合函数，并将其用来对输出未知的样本进行预测。

问题的形式：监督学习（有标签），无监督学习；

分类问题（输出空间只有有限个元素）：定义关注的类为正类的话，评价指标有准确率和召回率 $P = \frac{TP}{TP+FP}, ~R=\frac{TP}{TP+FN}$ （TP表示prediction is True, output is Positive)。

回归问题（输出空间连续）：常用的评价指标是平方损失函数。

标注问题：输入为一个观测序列，输出一个状态序列。可以将其看作分类问题的一个推广。

将学习方法对于未知数据的预测能力成为泛化能力。由于问题最终要变成通过对训练集进行学习，然后用于预测，导致需要考虑几个额外的问题：

1.由于拟合时需要考虑过拟合的问题，导致设计损失函数时需要引入和模型复杂度有关的结构项，但显然预测时并不关心这一项(防止过拟合的目的本身也是提高预测的准确率)，因此训练时和预测时的评价函数可能是不一样的。

2.当数据数量并不充足时，考虑使用更复杂的数据集划分方式来实现交叉验证。

3.考虑到训练集考虑并没有充分体现联合分布的特征（比如训练集有偏置），为了表征模型在这种情况下的效果，可以考虑模型在多个训练集上预测的损失结果的偏差和方差。通常情况下偏差越小代表拟合越好，也意味着模型有着更高的偏执，而方差则会越大。（在n个训练集上各自学习得到n个模型，都在同一个测试集上测试得到n个预测误差，求此n个误差的偏差和方差。）

1中考虑了如何比较同一个假设空间中的函数的拟合效果，2中考虑了如何较好的将拟合效果转化为预测效果，3考虑的是一种学习方法在训练集上学习到的模型的泛化能力。

统计学习基础 第一章总结

统计学习基础第一章总结