一、遗漏变量偏差
遗漏变量偏差是指OLS估计量中存在的偏差,它是在回归变量与遗漏变量相关时产生的。
遗漏变量偏差意味着第一个最小二乘假设不成立。
其理由如下:由前知一元线性回归模型中的误差项表示除了
之外所有决定
的因素。若其中某个因素与
相关,则意味着误差项
与
相关。
令和
的相关系数为
,第一个假设不成立而第二个和第三个假设成立,则OLS估计量具有如下极限:
(1)无论样本容量是大还是小,遗漏变量偏差问题都存在。
(2)这一偏差在实践中是大还是小,取决于回归变量和误差项之间的相关系数,即
越大则偏差越大。
(3)这一偏差的方向取决于和
是正相关还是负相关。
可通过数据分组处理遗漏变量偏差。
二、多元回归模型
多元回归模型(multiple regression model)
现假定只有两个自变量和
总体回归函数
截距,
的斜率系数
,
的斜率系数
,有时也称多元回归模型的一个或多个自变量为控制变量
系数的解释不同于模型中只有
一个回归变量时的情形:即
是在保持
不变或控制
时,
变化一个单位对
的效应。
固定不变,由于
变化了
,于是
也发生了一些变化,假定为
,则
得,
保持不变,即
对
的偏效应(partial effect)
加入误差项,有,即总体多元回归模型(population multiple regression model)
记常数回归变量(constant regressor),
可以看作是
的系数,亦即所有
都等于0时
的条件期望值,则
三、多元回归的OLS估计量
一般地,多元回归模型为
最小化预测误差平方和
普通最小二乘估计量分别为
给定时,
的预测值为
第个观测的残差为
四、多元回归的拟合优度
回归标准误差,其中
回归
调整回归
五、多元回归的最小二乘假设
多元回归有四个最小二乘假设
假设1:给定时
的条件分布均值为零
假设2:
假设3:不太可能出现大异常值
假设4:不存在完全多重共线性
六、多元回归中OLS估计量的分布
在多元回归的最小二乘假设中,多元线性回归中的OLS估计量是
的无偏一致估计量;且在大样本下,
的联合分布近似于多维正态分布,且其中每个
服从
。
七、多重共线性
当一个回归变量是其他回归变量的完全线性组合时,就产生了完全多重共线性(perfect multicollinearity);当一个回归变量和其他回归变量高度相关但不完全相关时,就产生了不完全多重共线性(imperfect multicollinearity)。
不同于完全多重共线性,不完全多重共线性既不会妨碍回归的估计,也不意味着回归变量选择中存在逻辑问题,但它意味着无法得到其中一个或多个回归系数的精确估计。