方法 = 模型 +策略 + 算法
统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个。
有了做模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。
(按照何种准则学习最优的模型,就是学习策略)
首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
监督学习问题是在假设空间Γ中选取模型f作为决策函数,对于给定的输入X,由f(X)给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一样可能不一样,用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。损失函数f(X)和Y的非负实值函数,记作L(Y,f(X)).
统计学习常用的损失函数有以下几种:
(1)0-1损失函数(0-1 loss function)
L(Y,f(X))={1,0,Y is not equal to f(X)Y is equal to f(X)
(2)平方损失函数(quadratic loss function)
L(Y,f(Y))=(Y?f(X))2
(3)绝对损失函数(absolute loss function)
L(Y,f(Y))=|(Y?f(X)|
(4)对数损失函数(logarithmic loss function)或对数似然损失函数(loglikelihood loss function)
L(Y,P(Y|X))=?logP(Y|X)
损失函数值越小,模型就越好。由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是
Rexp(f)=Ep[L(Y,f(X))]=∫x?yL(y,f(x))P(x,y)dXdy
这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。
学习的目标就是选择期望风险最小的模型。由于联合分布P(X,Y)是未知的,$R_{exp}(f)$不能直接计算。实际上,如果知道联合分布P{X,Y},可以从联合分布直接求出条件概率分布P(Y|X),也就不需要学习了。正因为不知道联合概率分布,所以才需要进行学习。这样一来,一方面根据期望风险最小学习模型要用到联合分布,另一方面联合分布又是未知的,所以监督学习就称为一个病态为题(ill-formed problem)
期望风险Rexp(f)是模型关于联合分布的期望损失,经验风险Remp是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险Remp(f)趋于期望风险Rexp(f).所以一个很自然的想法是用经验风险估计期望风险。但是,由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常不理想,要对现实中训练样本数目有限,甚至很少,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正,这就关系到监督学习的两个基本策略:经验风险最小化与结构风险最小化。
当样本容量足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛采用。比如,极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生后边将要叙述的“过拟合(over-fitting)”现象。
结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。
算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。这时,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
非常好的一篇技术文档,啦啦啦,我是勤劳的搬运工~
https://www.2cto.com/kf/201609/546221.html