1.4模型评估与模型选择
1.4.1训练误差与测试误差
测试误差反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念。测试误差小的方法具有更好的预测能力,是更有效的方法。通常将学习方法对未知数据的预测能力称为泛化能力。
1.4.2过拟合与模型选择
过拟合是指学习时学则的模型所包含的参数过多,以致于出现这一模型对已知数据预测很好,但对未知数据预测很差的现象。可以说模型的选择旨在避免过拟合并提高模型的预测能力。
模型选择时,不仅要考虑对已知数据的预测能力,而且还要考虑对未知数据的预测能力。
当模型的复杂度增大时,训练误差会逐渐减小并趋于0.而测试数据会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。
1.5正则化与交叉验证————两种常用的模型选择方法
1.5.1正则化
正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
正则化符合奥卡姆剃刀原理。
奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。
从贝叶斯估计的角度,正则化项对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单模型有较大的先验概率。
1.5.2交叉验证
如果给定的样本数据充足,进行模型选择的一种简单的方法是随机地将数据集切分成三部分,分别是训练集、验证集和测试集。训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。
交叉验证的基本思想是重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
1.简单交叉验证
方法:
(1)随机地将已给数据分为两部分,一部分作为训练集,另一部分作为测试集(70%训练集,30%测试集)。
(2)用训练集在各种条件下(不同的参数个数)训练模型,从而得到不同的模型
(3)在测试集上评估各个模型的测试误差,选出测试误差最小的模型
2.S折交叉验证
方法:
(1)随机地将已给数据切分为S个互不相交的大小相同的子集;
(2)利用S-1个子集的数据训练模型,利用余下的子集测试模型;
(3)将这一过程对可能的S种选择重复进行;
(4)最后选出S次评测中平均测试误差最小的模型
3.留一交叉验证————数据缺乏的情况下使用
S交叉验证的特殊情况S=N,N是给定数据集的容量
1.6泛化能力
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。
用这个模型对未知数据预测的误差既为泛化误差。
1.6.2泛化误差上界
通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。
定理1.1(泛化误差上界)对二分类问题,当假设空间是有限个函数的集合F={f1,f2,...,fd}时,对任意一个函数f属于F,至少以概率1-,以下不等式成立:
1.7生成模型与判别模型
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。
这个模型的一般形式为决策函数:Y = f(X)
或者条件概率分布:Y = P(X|Y).
监督学习可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型
1.7.1生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型。主要目的是预测X、Y之间的某种联系
P(Y|X) = P(X,Y)/P(X)
典型的生成模型有:朴素贝叶斯和隐马尔可夫模型
1.7.2判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。
典型的判别模型包括:K近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等
1.7.3在监督学习汇总,生成方法和判别方法各有优缺点,适合于不同条件下的学习问题。
生成方法的特点:生成方法可以还原出联合概率分布P(Y,X),而判别方法则不能。生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型更快的收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
1.8分类模型
分类是监督学习的一个核心问题。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出的预测,称为分类。可能的输出称为类。
评价分类器性能的指标一般是分类准确率,其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率。
1.9标注问题
标注问题也是一个监督学习问题。可以认为标注问题是分类问题的一个推广,标注问题又是一个更复杂的结构预测问题的简单形式。标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
对此类问题没有接触过,对过程不是很明白
标注常用的统计学习方法有:隐马尔可夫模型、条件随机场
标注问题在信息抽取、自然语言处理等领域被广泛应用,是这些领域的基本问题。
1.10回归问题
回归是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。
回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间安关系的类型即模型的类型,分为线性回归和非线性回归。
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法求解。
将过去的数据作为训练数据,就可以学习一个回归模型,对未来数据进行预测,但影响数据的因素太多,未必能判断到哪些信息有用并能得到这些信息。