1.3 统计学习三要素
1.3.2 策略
损失函数和风险函数。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
监督学习问题是在假设空间中选取模型f作为决策函数,对于给定的输入X,由f(X)给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致,用一个损失函数或者代价函数来度量预测错误的程度。损失函数是f(x)和Y的非负实值函数,记作L(Y,f(X))。常见的损失函数又0-1损失函数,平方损失函数,绝对损失函数,对数损失函数。损失函数值越小,模型就越好。
风险函数是损失函数的期望,是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失。
监督学习的两个基本策略是经验风险最小化(empirical risk minimization,ERM)和结构风险最小化(structural risk minimization,SRM)。ERM的策略认为,经验风险最小的模型是最优的模型。但是,当样本容量很小时,经验风险最小化的学习的效果就未必很好,会产生“过拟合”的现象。SRM的策略认为结构风险最小的模型是最好的模型。SRM是为了防止过拟合而提出的策略,SRM等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或者罚项。因此,监督学习问题就变成了经验风险和结构风险函数最优化问题。这时经验或结构风险函数是最优化的目标函数。
1.5 正则化与交叉验证
正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项(regularizer)或惩罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大,比如,正则化项可以是模型参数向量的范数。正则化的作用是选择经验风险和模型复杂度同时将校的模型。
1.5.2 交叉验证
另外一种常用的模型选择的方法是交叉验证。交叉验基本想法是重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型的选择。
简单交叉验证:首先随机地将已给数据分为两个部分,一部分作为训练数据集,另一部分作为测试数据集。然后用训练集在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
S折交叉验证:随机地将已给数据切分成互不相交的大小相同的子集,然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测种平均测试误差最小的模型。
留一交叉验证:S折交叉验证的特殊情形是S = N,成为留一交叉验证,往往在数据缺乏的情况下使用。