方差与偏差
方差表示,不同采样下预测结果的摆动情况
偏差表示,预测值对真实值的接近程度
模型约复杂,偏差越小方差越大
训练误差修正
基于训练误差 获得较好的预测误差
考虑兼顾方差和偏差的评价方式, 不单单以残差为唯一标准,同时引入模型的特征数量作为惩罚项
进一步:AIC 和BIC 的对比https://zhuanlan.zhihu.com/p/142489599
AIC
Kl距离:“tSNE”中有所涉及, aic中对kl距离用log似然函数来表示。
BIC
相对AIC增大了对模型特征数的惩罚
交叉验证
前面讨论的对训练误差修正得到测试误差的估计是间接方法,这种方法的桥梁是训练误差,而交叉验证则是对测试误差的直接估计。交叉验证比训练误差修正的优势在于:能够给出测试误差的一个直接估计,
共线性来源:
1 数据采集: 采样方式导致只采集了独立变量的一个小的子集
2 外部限制: 物理政治法律
3 模型的过度定义: 变量多于观测值
4 数据重构: 如果采样子集过小,那任何形式的指数或交叉项组合都会增加共线性
5 离群点主导:
识别共线性:
1 成对散点图明显趋势
2 相关性矩阵中的高相关性
3 方差膨胀系数VIF 越高表示共线性系数
4 相关性矩阵的特征值接近0表示共线性,使用条件数,大的条件数表征共线性
5 对比拟合系数的符号,多元与一元拟合符号相反
修正共线性方法:
外部方法:
1 增量增广 提高采样的数量和质量Ifthe multicollinearity has been created by the data collection, collectadditional data over a widerX-subspace.
2 简化模型If the choice of the linear model has increased themulticollinearity, simplify the model by using variable selection techniques.
3 剔除异常观测值If an observation or two has induced themulticollinearity, remove those observations.
内部方法:
1 岭回归