大师兄的应用回归分析学习笔记(五):多元线性回归(二)
大师兄的应用回归分析学习笔记(七):多元线性回归(四)
五、中心化和标准化
- 在多元线性回归分析中:
- 由于涉及多个自变量,自变量的单位往往不同,给结构分析带来一定困难;
- 由于多元回归涉及的数据量很大,可能因为舍入误差而使计算结果不理想
- 舍入误差有两个主要原因:
- 一是回归分析计算中数量级有很大差异
- 二是设计矩阵X的列向量近似线性相关
1. 中心化
- 将经验回归方程坐标原点移至样本中心,可得中心化经验回归方程:
- 中心化经验回归方程的常数项为0,少了一个未知参数
- 坐标系的平移变换只改变直线的截距,不改变直线的斜率
2. 标准化回归系数
- 在中心化的基础上,可进一步给出变量的标准化和标准化回归系数。
- 再用多元线性回归方程描述某种经济现象时,由于自变量所用的单位大多不同,数据的大小差异也往往很大,不利于在统一标准上进行比较。
- 为了消除量纲不同和数量级差异所带来的影响,就需要将样本数据做标准化处理,然后用最小二乘法估计未知参数,求得标准化回归系数。
- 样本的标准化公式为:
- 式中:
是自变量
的离差平方和。
- 用最小二乘法求出标准化的样本数据(
)的经验回归方程为:
- 标准化回归系数与普通最小二乘回归系数之间存在关系式:
- 标准化回归系数是比较自变量对y影响成都额的相对重要性的一种比较理想的方法,有了标准化回归系数后,变量的相对重要性就容易比较了。
- 但是对回归系数的解释仍需采取谨慎态度,因为当自变量相关时,会影响标准化回归系数的大小。
六、相关阵与偏相关系数
1. 样本相关阵
- 复相关系数R反映了一组自变量的相关性,是整体和共性指标。
- 简单相关系数反映的是两个变量间的相关性,是局部和个性指标。
- 由样本观测值
分别计算
与
之间的简单相关系数
,得自变量样本相关阵:
- 相关矩阵是对称矩阵
-
表示中心标准化的设计矩阵,则相关阵可表示为
2. 偏决定系数
- 偏决定系数是变量间的另一种相关性,在多元线性回归分析中,当其他变量固定后,给定的任两个变量之间的相关系数叫偏相关系数。
- 偏相关系数可以度量p+1个变量
之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。
2.1 两个自变量的偏决定系数
- 记
是二元线性回归模型中只含有自变量
时y的残差平方和,
是模型中同时含有自变量
和
时y的残差平方和。
- 因此,模型中已含有
时,再加入
使y的剩余变差的相对减少量为:
- 此时模型中已含有
时,y与
的偏决定系数。
- 同样,模型中已含有
时,y与
的偏决定系数为:
2.2 一般情况
- 当模型中已含有
时,y与
的偏决定系数为:
3. 偏相关系数
- 偏决定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。
- 偏相关系数与回归系数显著性检验的t值是等价的。
- 从图中可以看到,两个偏相关系数(Patial)为
![]()
- 进一步计算偏决定系数
![]()
- Zero-order 为 y与
的简单相关系数,分别为
![]()
- 决定系数为:
![]()
- Part为部分相关系数,y关于
的部分相关系数 =
![]()
- 以上数据说明:
- 用y与
做一元线性回归时,
能消除y的变差SST的比例为:
![]()
- 再引入
时,
能消除剩余变差
的比列为:
![]()
- 因而自变量能消除
消除y变差的总比例为:
![]()
- 而
恰好是y对
的二元线性回归的决定系数
![]()
- 偏相关系数反映的事变量间的相关性,因而不需要又处于特殊地位的变量y。
- 可以对任意p个变量
定义他们之间的偏相关系数,记作:
表示两个变量
之间的简单相关系数。
-
的相关阵,则在固定
保持不变
-
之间的偏相关系数为:
表示相关阵
第i行第j列元素的代数余子式2