内生性处理:工具变量法

​本专栏旨在分享日常学习计量时整理的笔记。所记之物来自网络、书籍,自己仅有整理汇集之功,涉及资料在文末标注,版权归原作者所有。

一、什么是内生性?

内生性问题是解释变量与扰动项相关导致的,具体的表现形式有遗漏变量、双向因果和测量误差。

  • 遗漏变量
    遗漏变量是指可能与解释变量相关的变量,本来应该加以控制,但是没有控制。此时该变量会跑到扰动项中,造成扰动项与解释变量相关。
  • 双向因果
    双向因果是指核心解释变量A和被解释变量B互相影响。假设扰动项发生正向冲击,B会增加,则A发生变动,如此就有核心解释变量A和扰动项相关。此时,如果B对A有正向影响,正向冲击便会导致A增加,从而导致核心解释变量A和扰动项正相关。反之,会有核心解释变量A和扰动项负相关。
  • 测量误差
    测量误差是指被解释变量存在度量误差或解释变量存在度量误差。
    (1)当解释变量存在度量误差
    y=α+βx'+e,x'无法精确观测,只能观测到x,x=x'+u,u为度量误差
    此时有:y=α+βx+(e-βu)
    因为u和x相关,所以新的扰动项e-βu和x存在相关关系,产生了内生性。此时,估计得到的系数绝对值会偏小。
    (2)当被解释变量存在度量误差
    y'=α+βx+e,y'无法精确观测,只能观测到y,y=y'+v,v为度量误差
    此时有:y=α+βx+(e+v)
    只要Cov(x,v)=0,则OLS估计量仍是一致的,但会增大扰动项的方差;若Cov(x,v)≠0,就会产生内生性问题
    有:y=α+βx+(e-βu)。

二、内生性问题的影响

OLS能够成立的最重要前提条件是解释变量与扰动项不相关。否则,OLS估计量将是有偏且不一致的。
无偏是指估计量的期望等于真实值。一致性是指,随着样本的增大,估计量无限接近于真实值。

三、如何解决内生性问题

1.固定效应模型

固定效应模型在一定程度上可以缓解内生性。因为使用固定效应模型的原因是存在个体效应、时间效应与解释变量相关。此时如果不用固定效应模型,这些个体、时间影响就会溜到扰动项中,就产生了内生性问题。

2.IV/2SLS

解决内生性问题常见的做法是使用工具变量。

2.1工具变量

工具变量:与模型中内生变量(解释变量)高度相关,但却不与误差项相关,估计过程中被作为工具使用,以替代模型中与误差项相关的解释变量的变量。

“找好的工具变量好比寻找一个好的伴侣,ta应该强烈地爱着你(强相关),但不能爱着别人(外生性)。”

image.png

2.2 两阶段最小二乘法

IV法可以视为2SLS的特例。当内生变量个数=工具变量个数时,称为IV法;当内生变量个数<工具变量个数时,称为2SLS

2SLS思路如下:
y=α+βx1+γx2+u,其中x1是严格外生的,x2是内生的,则至少需要1个工具变量,z1为工具变量。
第一阶段回归:内生变量和工具变量
x2=a+bz1+cx1+e
第二阶段回归:内生变量的预测值和被解释变量
y=α+βx1+γx2'+v

2SLS背后逻辑:
将内生解释变量分为两部分,有工具变量造成的外生部分和与扰动项相关的内生部分。
第一阶段:通过外生变量的预测回归,得到这些变量的外生部分。
第二阶段:把被解释变量对解释变量中的外生部分进行回归,消除偏误得到一致估计。

注意:为了保证2SLS的一致性,必须把原方程中所有的外生解释变量都放入第一阶段回归。

2SLS的难点在于恰当的工具变量选择。若存在N个内生解释变量,则至少需要N个工具变量。

假设回归模型

y= α+βx1+γx2+u,其中x1是外生的,x2是内生的,有两个工具变量z1和z2。

stata命令如下:

ivregress 2sls depvar [varlist1] (varlist2 = varlist_iv) 

*depvar 被解释变量
*varlist1 外生解释变量
*varlist2 内生解释变量
*varlist_iv 工具变量

*示例1
ivregress 2sls y x1 (x2= z1 z2)  //普通标准误
ivregress 2sls y x1 (x2= z1 z2), r first  //异方差稳健标准误、显示第一阶段的回归

*示例2 3
ssc inatll ivreg2
ssc install xtivreg2
ssc install ranktest 
ivreg2 y x1 (x2= z1 z2), r  //异方差稳健标准误
xtivreg2 y x1 (x2= z1 z2), fe r  //异方差稳健标准误、固定效应+2SLS

以上命令ivregress 2sls 和 ivreg2是等价的,只是 ivreg2显示的内容更为丰富。xtivreg2 相较于ivreg2,就是OLS和FE/FD模型的差别,ivreg2 ... i.Year i.id等价于xtivreg2 ... i.Year, fe。

2.3 工具变量的检验

针对工具变量有三大检验:

  • 内生性检验
    Cov(x,u)≠0
  • 相关性检验 (不可识别检验、弱工具变量检验)
    Cov(x,z)≠0
  • 外生性检验(过度识别检验)
    Cov(z,u)=0

以上三大检验,优先做相关性检验。这是由于弱工具变量会对估计结果以及外生性检验结果产生影响。

(1)相关性检验

a.不可识别检验
不可识别检验的原假设是秩条件不成立,即工具变量与解释变量不相关。不可识别检验在一定程度上可以验证是否存在弱工具变量,但不能取代对弱工具变量的检验。关于弱工具变量的检验,可以分为单个内生变量和多个内生变量。

*示例
ivreg2 y x1 (x2= z1 z2), r  //异方差稳健标准误
xtivreg2 y x1 (x2= z1 z2), fe r  //异方差稳健标准误、固定效应+2SLS

b.弱工具变量检验
如果方程中有一个内生变量,一个经验规则是在第一阶段回归中,如果F统计量>10,则可拒绝“存在弱工具变量”的原假设,不必担心弱工具变量的问题。

*示例
ivregress 2sls y x1 (x2= z1 z2), r first  //异方差稳健标准误、显示第一阶段的回归

如果方程中有多个内生变量,Stock & Yogo给出了检验规则:如果弱识别检验的最小特征值统计量>15% maximal IV size对应的临界值,就可以认为工具变量不存在弱相关问题。

*示例
ivreg2 y x1 (x2= z1 z2), r  //异方差稳健标准误
xtivreg2 y x1 (x2= z1 z2), fe r  //异方差稳健标准误、固定效应+2SLS

如果发现是弱工具变量,解决的方法有:

  • 寻找更强的工具变量
  • 使用LIML(有限信息最大似然法),其对弱工具变量不敏感
  • 如果有较多的工具变量,可以进行“冗余检验”,舍弃弱工具变量。冗余检验的原假设是,指定的工具变量是多余的。
*liml方法
ivregress liml y x1 (x2= z1 z2), r  //异方差稳健标准误、liml方法
ivreg2 y x1 (x2= z1 z2), r  liml  //异方差稳健标准误、liml方法
xtivreg2 y x1 (x2= z1 z2), fe r  liml  //异方差稳健标准误、liml方法

*冗余检验
ivreg2 y x1 (x2= z1 z2), r redundant(varlist)  //异方差稳健标准误、冗余检验
xtivreg2 y x1 (x2= z1 z2), fe r redundant(varlist) //异方差稳健标准误、冗余检验、固定效应+2SLS

(2)内生性检验
首先假定内生性进行2SLS回归,然后假定不存在内生性进行OLS回归,最后使用豪斯曼检验。
当p值<0.1时,表明两个回归的系数存在显著的系统性差异,及关注的核心变量有内生性。

*示例1
reg y x1 x2
est store ols
ivregress 2sls y x1 (x2=z1 z2)
est store iv
hausman iv ols, constant sigmamore  //根据存储的结果进行豪斯曼检验
*示例2
ivreg2 y x1 (x2= z1 z2), r  endog(x2) //异方差稳健标准误
*示例3
xtivreg2 y x1 (x2= z1 z2), fe r endog(x2) //异方差稳健标准误、固定效应+2SLS

(3)外生性检验
在恰好识别的情况下,即工具变量数=内生变量数,此时公认无法检验工具变量的外生性,即工具变量与扰动项不相关。在这种情况下,只能进行定性讨论或依赖于专家的意见。在过度识别的情况下,可以进行“过度识别检验”。当p>0.1,接受原假设,说明工具变量具有外生性。

*示例
ivreg2 y x1 (x2= z1 z2), r  orthog(z1 z2) //异方差稳健标准误
xtivreg2 y x1 (x2= z1 z2),  fe r orthog(z1 z2) //异方差稳健标准误、固定效应+2SLS

注意,如果误差项存在异方差或自相关,那么2SLS的估计虽然是一致估计量,但不是有效估计量。更有效的方法是“广义矩估计”GMM。某种意义上,GMM之于2SLS,正如GLS之于OLS,前者可以获得有效估计量,后者只能获得一致估计量。

该方法的前提条件是:工具变量数>内生变量数,且2SLS存在异方差或自相关

*示例
ivregress gmm ... 
ivreg2 ..., gmm2s
xtivreg2 ..., fe gmm

综上,在使用stata进行2SLS时,推荐使用ivreg2或xtivreg2。

对于面板数据,建议先对模型进行变换,然后对变换后的模型使用2SLS:

  • 固定效应模型
*离差变换
xtivreg2 y x1 (x2= z1 z2),  fe r 
*一阶差分
xtivreg2 y x1 (x2= z1 z2),  fd r 
  • 随机效应模型
xtivreg2 y x1 (x2= z1 z2),  re r 

参考资料:
《高级计量经济学及stata应用》
面板数据分析与Stata应用
测量误差及其对统计分析的影响
有人能讲讲工具变量和2SLS之间的关系吗?
工具变量法(五): 为何第一阶段回归应包括所有外生解释变量
xtivreg2和它的山寨者

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354