工具变量(instrumental variable,IV)回归是当回归变量与误差项相关时获得总体回归方程未知系数一致估计量的一般方法
为了理解IV回归是如何工作的,将中的变化视作是由两部分组成的:其中一部分不管是何原因与相关,而第二部分与无关
一、单个回归变量和单个工具变量的IV估计量
联系因变量和回归变量的总体回归模型为,其中为代表决定遗漏因素的误差项
若和相关,则OLS估计量是非一致的,可利用另一个工具变量分离出中与不相关的部分
模型中与误差项相关的变量称为内生变量(endogenous variable)而与误差项不相关的变量称为外生变量(exogenous variable)
一个有效的工具变量必须满足称为工具变量相关性(instrument relevance)和工具变量外生性(instrument exogeneity)的两个条件,即:
①工具变量相关性:
②工具变量外生性:
若工具变量满足工具变量的相关性和外生性条件,则可用两阶段最小二乘(two stage least squares,TSLS)的IV估计量估计系数
①第一阶段把分解成两部分,即与回归误差相关的会引发问题的一部分,以及与误差项无关的不会引发问题的一部分;
②第二阶段利用没有问题的一部分估计
第一阶段从如下联系和的总体回归开始:,利用OLS估计时取预测值
第二阶段利用OLS建立关于的回归,由此得到的即是TSLS估计量和
如果工具变量是有效的,则
二、一般IV回归模型
工具变量个数和内生回归变量个数之间的关系很重要,记工具变量个数为,内生变量个数为
①,恰好识别(exactly identified)
②,过度识别(over identified)
③,不可识别(under identified)
如果要用IV回归估计系数,那么系数必须是恰好识别或过度识别的
两阶段最小二乘法
包含多个工具变量的一般IV回归模型的TSLS估计量计量分以下两个阶段:
①第一阶段回归(first-stage regression):利用OLS建立关于工具变量和外生变量的回归,计算这个回归的预测值,并对所有的内生变量重复这一过程,由此得到预测值
②第二阶段回归(second-stage regression):利用OLS建立关于内生变量预测值和外生变量的回归,得TSLS估计量
工具变量有效的两个条件:
①工具变量相关性
预测值和外生变量不是完全多重共线的
②工具变量外生性
工具变量与误差项不相关
IV回归假设:
①
②是从它们的联合分布中抽取的i.i.d.样本
③异常值不太可能出现,即都有非零有限四阶矩
④工具变量有效的两个条件成立