EL_task3task4task5

方差与偏差

方差表示,不同采样下预测结果的摆动情况

偏差表示,预测值对真实值的接近程度

模型约复杂,偏差越小方差越大­­­­­­­­

­­­­­

训练误差修正

基于训练误差 获得较好的预测误差

考虑兼顾方差和偏差的评价方式, 不单单以残差为唯一标准,同时引入模型的特征数量作为惩罚项

进一步:AIC 和BIC 的对比https://zhuanlan.zhihu.com/p/142489599

AIC

Kl距离:“tSNE”中有所涉及, aic中对kl距离用log似然函数来表示。


BIC­­­

相对AIC增大了对模型特征数的惩罚

­­

交叉验证

前面讨论的对训练误差修正得到测试误差的估计是间接方法,这种方法的桥梁是训练误差,而交叉验证则是对测试误差的直接估计。交叉验证比训练误差修正的优势在于:能够给出测试误差的一个直接估计,

共线性来源:

1 数据采集: 采样方式导致只采集了独立变量的一个小的子集

2 外部限制: 物理政治法律

3 模型的过度定义: 变量多于观测值

4 数据重构: 如果采样子集过小,那任何形式的指数或交叉项组合都会增加共线性

5 离群点主导:

识别共线性:

1 成对散点图明显趋势

2 相关性矩阵中的高相关性

3 方差膨胀系数VIF 越高表示共线性系数

4 相关性矩阵的特征值接近0表示共线性,使用条件数,大的条件数表征共线性

5 对比拟合系数的符号,多元与一元拟合符号相反

修正共线性方法:

外部方法:

1 增量增广 提高采样的数量和质量Ifthe multicollinearity has been created by the data collection, collectadditional data over a widerX-subspace.

2 简化模型If the choice of the linear model has increased themulticollinearity, simplify the model by using variable selection techniques.

3 剔除异常观测值If an observation or two has induced themulticollinearity, remove those observations.

内部方法:

1 岭回归

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容