大师兄的应用回归分析学习笔记(十九):岭回归(一)
大师兄的应用回归分析学习笔记(二十一):岭回归(三)
四、岭参数k的选择
- 目的是选择使
达到最小的k,最优k值依赖于未知参数
和
,因而在实际应用中必须通过样本来确定。
- 究竟如何确定k值,在理论上尚未得到令人满意的答案。
- 问题的关键是最优k值对
和
的依赖关系与函数形式不清楚。
- 但这个问题在应用上又特别重要,因此有不少统计学者进行相应的研究。近十年来相继提出了许多确定k值的原则和方法,这些方法一般都基于直观考虑,有些通过计算机模拟实验,具有一定的应用价值,但目前尚未找到一种工人的最优方法。
1. 岭迹法
- 岭迹法的直管考虑是,如果最小二乘估计看起来有不合理之处,如估计值以及正负号不符合经济意义,则希望能通过采用适当的岭估计
来获得一定程度的改善,岭参数k值的选择就显得尤为重要。
- 选择k值的一般原则是:
- 各回归系数的岭估计基本稳定。
- 用最小二乘估计的符号不合理的回归系数,其岭估计的符号变得合理。
- 回归系数没有不合乎经济意义的绝对值。
- 残差平方和增加的不太多
- 如图,当k取
时,各回归系数的估计值基本上都能相对稳定。
- 岭迹法确定k值缺少严格的令人信服的理论依据,存在一定的主观性。
2. 方差扩大因子法
- 方差扩大因子
可以度量多重共线性的严重程度,一般当
时,模型就有严重的多重共线性。
- 计算岭估计
的协方差,得:
- 其中
,其对角元素
为岭估计的方差扩大因子。
- 可以看出
随着k的增大而减少。
- 应用方差扩大因子法选择k的经验做法是:
- 选择k使所有方差扩大因子c\leq 10$
- 当
时,所对应的k值的岭估计
就会相对稳定。
3. 由残差平方和确定k值
- 岭估计
在减小均方误差的同时增大了残差平方和,我们希望将岭回归的残差平方和
的增加幅度控制在一定的限度以内,从而可以给一个大于1的c值:
- 要求
![]()