统计学习导论 ISL Ch5 重抽样方法

重抽样方法(resembling method)

定义:在训练集上随意地取样本,然后在每个样本上重新应用模型,以检验模型的准确性。

作用:估计模型效果(test error);选择最佳的自由度(参数)

5.1 交叉验证

5.1.1 验证集方法

步骤:

1.随机地将观测集分为两部分:训练集和验证集

2.利用训练集来生成一些模型

3.在验证集上拟合模型,计算验证集错误率MSE,作为test error的估计

缺陷:验证集方法得到的结果波动很大;验证集数据很少,相对于整个数据集来说会高估test error

5.1.2 留一交叉验证法LOOCV

步骤:

1.将观测集分为两部分:一个单独的观测(x1,y1)为验证集,剩下的观测为训练集

2.利用训练集来生成一些模型

3.由x1带入模型可得到y1的估计,从而得到MSE1

4.将(x2,y2)看做验证集,利用剩下的n-1个观测值生成模型,重复这个步骤,可以得到n个均方误差MSE1,...,MSEn

5.对test error的LOOCV估计是这n个MSE的均值

特点:

计算量可能很大,因为需要生成n次模型。

5.1.3 k折交叉验证法(k-fold CV)

1.将观测值随机地分成k个大小基本一致的组,第一组作为验证集

2.利用其他k-1个组来生成模型

3.在第一组上拟合模型,得到MSE1

4.将第二组看做验证集,利用剩下的k-1个组生成模型,重复k次这个步骤,得到k个test error的估计:

MSE1,...,MSEn

5.对test error的k折交叉验证估计为这k个值的均值

特点:

比验证集方法的稳定性更好;当n较大时,比LOOCV计算的可行性更高。

5.2 自助法(bootstrap)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容