【应用计量系列141】DID的稳健性检验:不可观测的混淆因子(1)

参考文献:Vives-i-Bastida J, Gulek A. Synthetic instruments in DiD designs with unmeasured confounding[J]. 2023.

DID要做的稳健性检验很多,参见DID的规定动作。其中,最难的就是不可观测的混淆因子。

在经验研究中,我们最担心的就是内生性问题,例如,处理选择性地影响一些个体,或者收到处理的个体存在不同的趋势等等。为了解决这些问题,我们常常会采用DID设计或者SC(合成控制法),从而用选择的控制组来“代替”不存在处理时的反事实结果。虽然这些方法可以解决部分内生性的问题,但是由于所有的个体最终都接受处理,或者控制组和处理组并不满足平行趋势,从而不存在有效的控制组,最终使得上述方法并不能完全解决内生性问题。

因此,我们这个时候都会转向IV-DID设计,例如,SSIV(shift-share IV)。理想是丰满的,但实现往往很残酷。实践中,内生性问题可能依然存在,因为我们找到的IV肯恩与不可观测的成分相关,从而展示出“处理前趋势”。

其实,大家都知道上述问题意味着“找到一个有效的IV太难了”,那么,我们为什么不构造一个IV呢?(这一点,我每次外出参加研讨会,都会给IV的论文提)今天就来看一种构造IV的方法(SSIV也是一种构造IV的思路)。

一、数据环境

  • 面板数据
  • 有些个体暴露在处理中
  • 存在一些内生性问,例如,在使用DID的时候,担心存在差异化处理前趋势,平行趋势不成立,但是利用IV只能部分解决内生性问题

也就是说,有J个个体,T期,Yit是结果变量,Yit(Rit)是潜在结果。

  • 假设1:[设计] 潜在结果遵循下列线性因子模型
    Y_{i t}\left(R_{i t}\right)=\theta R_{i t}+\mu_i^{\prime} F_t+\epsilon_{i t}
    其中,\mu_i是k个不可观测因子载荷向量,F_t是共同因子,\epsilon_{i t}是不可观测的误差项。假设1定义的是我们感兴趣的处理设计。关于处理的假设有下列两种情形:

  • 假设1.1:[一般化处理] 处理R_{i t}遵循
    R_{i t}=\gamma Z_{i t}+\eta_{i t}
    其中,Z_{i t}是工具变量,\eta_{i t}是不可观测的误差项。此处的处理变量R_{i t}可以是连续型变量,多值变量,或者二值型变量。如果为二值型变量,上述假设可以转换成:

  • 假设1.2:[IV-DID设计] 处理R_{i t}遵循
    R_{i t}=1\left\{t>T_0\right\}\left(\gamma Z_{i t}+\eta_{i t}\right) .
    假设1.2表明,影响个体的处理发生在时间T0之后,而对于T0前,处理R_{i t}=0。例如,在研究叙利亚危机时,难民进入欧盟对欧盟劳动力市场的影响,发生叙利亚危机前,没有难民进入欧洲,此时构造的SSIV在T0前是0。正是由于在T0前没有外生冲击,所以我们可以选择T0来分离样本,进行很多研究设计。

更重要的是,假设1对不可观测项施加了线性因子结构。线性因子结构在合成控制法和矩阵完成法文献中非常常见。这个假设允许我们分离不可观测项——遗漏变量(U_{it}=\mu_i^{\prime} F_t)和不可观测误差项(\eta_{i t})。我们感兴趣的参数是\theta

  • [1] 如果R_{i t} \perp \epsilon_{i t}, \mu_i^{\prime} F_t,也就是处理变量与误差项和遗漏变量无关,那么,OLS估计量是无偏的。

但是在许多情形下,处理变量要么与不可观测误差项相关,要么与不可观测的遗漏变量相关。此时,我们有一个工具变量Z_{it},它对于不可观测的误差项引起的内生性问题是有效的,但是对于不可观测的遗漏变量并不是有效的。

  • 假设2: [部分有效工具变量] 下列独立性条件成立:\epsilon_{i t}, \eta_{i t} \perp Z_{i t}

假设2意味着,工具变量Z可以解决与不可观测因素\epsilon_{i t}, \eta_{i t}有关的内生性问题。

下面,我们用因果图模型来看看上述问题:


image.png

图(a)是一般化研究设计。(b)是我们常见的有效IV研究设计。(c)是OLS估计量有效的研究设计。需要注意的是,在(a)中,不可观测的混淆因子U也可以与处理变量R相关。

(a)与(b)最大的区别在于,有效的IV需要满足(1)Z与R相关;(2)Z只通过R影响Y。第一个相关性假设通常用一阶段F统计量来检验,或者AR检验。但是外生性假设则无法检验,因为U是不可观测的。这才是“朋友不建议朋友使用IV”的根本原因。

二、新的合成IV估计量

从研究设计的角度来看,其实想法很简单:如果我们能控制住遗漏变量U,那么,IV不就有效了吗?

但是,问题是U是不可观测的,如何控制住它?

我自己想的研究设计更简单(我还没有研究这个研究设计的估计量的性质):

  • 假定在观察数据研究中,我们不可能得到真实的处理效应,但是我们可以尽可能地消除偏误,以接近真实处理效应。

  • 在实践中,我们可以找到不可观测混淆因子U的可观测结果变量或者原因变量。例如,2008年实施的4万亿刺激,这个政策其实是一揽子刺激措施,根本不可能准确测度4万亿政策。但是,我们可以找到4万亿刺激政策的可观测结果变量,例如各地区的村镇银行、投融资平台等等,这些变量都是4万亿刺激措施的直接结果。

  • 然后,在IV回归中,控制这些可观测的结果变量,得到的IV估计量会在一定程度上消除U带来的偏误问题。

这是一种近似替代变量(proxy)的方法,非常实用,大家以后可以试试,如上图(d)所示。也有很多文献提出了各种不同的寻找近似控制变量的方法,例如Miao et al. (2018) 、 Deaner (2021),但是这些方法需要额外的数据。还有一些方法不依赖于额外的数据,例如,直接控制线性趋势(Wolfers, 2006)、交互固定效应(Bai,2009;Liu et al,2023)、合成控制法,或者SDID的扩展方法(Arkhangelsky and Korovkin,2023)。

Vives-i-Bastida and Gulek(2023)提出了一种新的方法——合成IV(Synthetic IV,SIV)来应对不可观测混淆因子U带来的偏误/内生性问题。

叙利亚危机对欧盟劳动力市场的影响。叙利亚危机发生在2011年3月,持续到2017年。600万叙利亚人离开叙利亚去往欧洲。给定叙利亚难民冲击的结构,估计难民冲击对欧洲劳动市场的因果效应的方法是利用SSIV——探索叙利亚危机的外生时间冲击和对不同欧盟地区的差异化影响。

  • R_{jt}表示j地区,t年的难民/原住民比例
  • 用旅途距离做为shift-share工具(Angrist and Kugler, 2003; Aksu et al., 2022)
    \begin{aligned} & Z_{j t}=\underbrace{\bar{H}_t}_{\text {shift }} \times \underbrace{Z_j}_{\text {share }}, \\ & Z_j=\sum_{s=1}^{13} \lambda_s \frac{1}{d_{j, s}} \end{aligned}
    其中,\bar{H}_t是t年进入欧盟的难民数量,d_{j, s}是欧盟地区j与叙利亚地区s之间的旅途距离。\lambda_s是一个与s地区人口规模成比例的权重——通常认为,人口多的地区,难民也比较多。

此时,一阶段的研究设计是下列TWFE事件研究:
R_{j t}=\sum_{j \neq 2010} \theta_j\left(\mathbb{1}\{t=j\} \times Z_j\right)+f_j+f_t+\eta_{j t}

上述一阶段回归结果检验工具Z是否可以预测难民的位置选择。结果如下:

image.png

F统计量的结果为154,这个IV回归的相关性假设得到证实。但是,考察下列缩减形式的IV回归:
Y_{j t}=\sum_{j \neq 2010} \beta_j\left(\mathbb{1}\{t=j\} \times Z_j\right)+f_j+f_t+\epsilon_{j t}
得到的结果如下:
image.png

上述事件研究结果显示,处理前存在明显的处理前趋势。这意味着,这个IV-DID可能并不满足平行趋势假设。

Vives-i-Bastida and Gulek(2023)的合成IV估计量主要有两步组成:

  • 【第一步】处理前的每个个体找到一个合成控制组,并对结果变量Yit,处理变量Rit和工具变量Zit构造出反事实估计量;
  • 【第二步】用上述反事实估计量来跑标准的IV回归,即计算一阶段和缩减形式的IV估计量。

三、SIV的实践应用

再次考察叙利亚难民对欧盟劳动市场的影响。

  • 【第一步】创造结果、处理、工具等变量的合成控制地区;
  • 【第二步】用原始数据减去合成控制数据,得到\tilde{Y}_{i t}, \tilde{R}_{i t}\tilde{Z}_{i t}
    -【第三步】在跑标准的IV之前,先检验一些处理前匹配质量,例如,画出去偏误后的数据图来检验拟合优度,这些数据应该在0附近小幅波动,如下图所示
    image.png
  • 【第四步】用纠偏数据跑一阶段回归:
    \tilde{R}_{j t}=\sum_{j \neq 2010} \theta_j\left(\mathbb{1}\{t=j\} \times \tilde{Z}_j\right)+f_j+f_t+\eta_{j t}
    结果如下:
    image.png

    F统计量是218。
    -【第五步】用纠偏数据跑缩减形式的回归
    image.png

    第一行的方程是IV的缩减形式回归,第二行方程式SIV的缩减形式回归。结果如下:
    image.png
  • 【第六步】过度拟合/匹配偏误检验。如图(c)所示,用整个时期来进行匹配,即使数据中没有有用信息,缩减形式回归仍然会给我们无处理前趋势的结果。这就是过度拟合偏误。因此,我们可以改变处理前匹配的时期,例如(c)的绿色三角用2004-2007年作为处理前的合成控制样本,然后在跑上述过程来进行稳健性检验。

注:后期会给大家讲解上述过程的stata代码。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容