【应用计量系列101】Stata 18新功能:异质性处理效应

STATA 18已经发布,对我来说,最重要的更新之一是“异质性处理效应”。即但处理效应在时间维度和组群(类)维度存在异质性时,传统的TWFE估计量难以理解,甚至会产生严重的偏误。这些知识,我们已经讲过很多遍了。再次提醒注意,异质性处理效应不仅仅出现在时间维度,也不仅仅只是出现在交叠处理情形。最新进展概述参考DID最新进展

STATA 18更新了两个命令xthdidregresshdidregress,它们分别针对面板数据和重复截面数据来估计异质性处理效应下的ATT,或动态处理效应。它们都是基于Callaway and Sant' Anna(2021)Wooldridge(2021)的异质性处理效应稳健估计量。所以更加适用于交叠处理情形下,时间维度和类维度异质性处理效应的估计。对于CS估计量,stata 18内置了三种协变量调整方法:回归调整(RA)、逆概率加权(IPW)和扩展的逆概率加权(AIPW)。这与Fernando开发的csdid和csdid2相比,还是少了很多方法,而且在其他的方面,csdid也更出色一些,因此,在实践中,我还是建议使用csdid这个包。对于Wooldridge(2021)的估计量来说,就是扩展的TWFE估计量,更详细的介绍请参考我以前的笔记。目前的DID应用研究中,大多数使用csdid,目前还没使用jwdid的,请参考【DID最新应用文献解读】

下面,我们来介绍一些CS估计量:

一、模型

xthdidregress命令用DID估计处理效应:(1)多时期;(2)交叠处理(不同处理时点);(3)处理效应在时间和类间存在异质性。

观测数据\{y_{it},x_{it},d_{it},z_{it}\},其中,y_{it}是观测的结果变量,x_{it}是结果模型的协变量,d_{it}是而执行处理变量,z_{it}是处理配置的协变量。

定义y_{it}(g)表示如果初次处理发生在时期g,个体i在时间t的潜在结果。y_{it}(0)表示从而处理的潜在结果。所有个体都可以划分为类(cohorts),每一类集聚了相同处理时点的个体。例如,类g意味着,所有的个体处理发生在g期。g类的个体可以表示为G_{ig}=1。当个体i从未处理,我们用G_{i0}=1表示。因此,类0表示那些从未接受处理的个体。假设一旦处理,就不会退出处理。

为了显示异质性处理效应在类和时间上如何演化,我们对每一类和时间的结合的ATT比较感兴趣。定义\theta(g,t)表示g类t期的ATT,即
\theta(g,t)=E\{y_t(g)-y_t(0) | G_g=1\}

其中,如果个体属于类g,那么,G_g=1

CS估计量:
为了定义处理效应,我们需要控制组。有两种方式可以定义控制组:第一,从未处理的个体作为控制组。如果个体属于从未处理,那么C^{NEW}=1。尤其是,C^{NEW}=G_0。第二,让不在类g中,且t期还未接受处理的个体作为控制组(notyet)。如果个体在t期属于还未处理个体,那么C_{gt}^{NY}=1。尤其是,C_{gt}^{NY}=(1-G_g)(1-d_t)。为了简化,我们将控制组表示为C_{gt}^*

那么,① 回归调整的估计量(RA):
\theta_{RA}(g,t)=E[\frac{G_g}{E(G_g)}(y_t-y_{g-1}-m_{gt}(x))]
其中,m_{gt}(x)=E(y_t-y_{g-1} | x,C_{gt}^*=1)

② IPW估计量:
\theta_{IPW}(g,t)=E([\frac{G_g}{E(G_g)}-\frac{\frac{p_{gt}( z)C_{gt}^*}{1-p_{gt}( z)}}{E(\frac{p_{gt}( z)C_{gt}^*}{1-p_{gt}( z)})}](y_t-y_{g-1}))
其中,p_{gt}( z)=Pr(G_g=1 |z,G_g+C_{gt}^*=1)

③ AIPW估计量:
\theta_{AIPW}(g,t)=E([\frac{G_g}{E(G_g)}-\frac{\frac{p_{gt}( z)C_{gt}^*}{1-p_{gt}( z)}}{E(\frac{p_{gt}( z)C_{gt}^*}{1-p_{gt}( z)})}](y_t-y_{g-1}-m_{gt}(x)))

Callaway and Sant' Anna(2021)显示:
\theta(g,t)=\theta_{RA}(g,t)=\theta_{IPW}(g,t)=\theta_{AIPW}(g,t)
我们可以使用观测数据来估计后面三种估计量。

处理效应的识别可以分成三步:

  • 1、将样本现在在t期和t_0期,留下类g的个体或控制组C_{gt}^*中的个体,且如果t\ge gt_0=g-1,或者t < gt_0=t-1。仅仅只是用配对观测值。换言之,如果个体i在t期和t_0期都观测到,个体i的样本才被使用。
  • 2、用参数模型来估计隐函数p_{gt}( z)、m_{gt}(x)。实践中,用线性回归模型来拟合m_{gt}(x),用logit模型来拟合p_{gt}( z)。尤其是,
  • a. 当C_{gt}^*=1时,用y_t-y_{t_0}对x回归;
  • b. 线性预测值为m_{gt}(x)
  • c. 用G_g对z跑logit回归;
  • d. 正结果的概率预测值为p_{gt}( z)
  • 3、将估计得到的p_{gt}( z)、m_{gt}(x)带入三种估计量中。注意,期望算子被样本均值替换。

估计量的方差-协方差矩阵用影响函数方法计算。影响函数法在数值上等价于GMM方法。然后它更快。

Wooldridge(2021)的估计量的技术细节参见Wooldridge(2021)

我们用Stata 18提供的一套模拟数据来看看内置的异质性处理效应稳健估计量的用法和stata命令格式。

二、忠犬八公的故事

《忠犬八公的故事》是一部非常感人的美国电影。讲述的是,教授帕克(理查·基尔 Richard Gere 饰)在小镇的火车站拣到一只走失的小狗,冥冥中似乎注定小狗和帕克教授有着某种缘分,帕克一抱起这只小狗就再也放不下来,最终,帕克对小狗八公的疼爱感化了起初极力反对养狗的妻子卡特(琼·艾伦 Joan Allen 饰)。八公在帕克的呵护下慢慢长大,帕克上班时八公会一直把他送到车站,下班时八公也会早早便爬在车站等候,八公的忠诚让小镇的人家对它更加疼爱。有一天,八公在帕克要上班时表现异常,居然玩起了以往从来不会的捡球游戏,八公的表现让帕克非常满意,可是就是在那天,帕克因病去世。帕克的妻子、女儿安迪(萨拉·罗默尔 Sarah Roemer 饰)及女婿迈克尔(罗比·萨布莱特 Robbie Sublett 饰)怀着无比沉痛的心情埋葬了帕克,可是不明就里的八公却依然每天傍晚五点准时守候在小站的门前,等待着主人归来……本片根据上个世纪30年代发生在日本的真实故事改编。最近,中国也改编了这部电影,上映了中国版《忠犬八公》。

image.png

我们除了感动于狗狗的忠诚外,还对另一个现实的问题感兴趣,那就是:电影里以狗狗作为主人公会不会促进人们养狗?

Ghirlanda, Acerbi,and Herzog (2014)研究了这个问题。Stata 18用了一套模拟数据,有141条养狗记录,时间跨度2021-2040。在样本初期,没有电影里出现养狗。2034年,电影出现养狗,接下来是2036,2037。

 use https://www.stata-press.com/data/r18/akc

tabulate year movie

sum

xtset breed year
image.png

异质性处理效应估计量的命令格式:

* TWFE
xthdidregress twfe (ovar omvarlist) (tvar) [if]   [in]   [weight], group(groupvar) [options]

*Regression adjustment
xthdidregress ra (ovar omvarlist) (tvar) [if]   [in]   [weight], group(groupvar) [options]

*Inverse-probability weighting
xthdidregress ipw (ovar) (tvar tmvarlist) [if]   [in ] [weight], group(groupvar) [options]

* Augmented inverse-probability weighting
xthdidregress aipw (ovar omvarlist) (tvar tmvarlist) [if]   [in]   [weight], group(groupvar) [options] 

*其中,ovar是结果变量,omvarlist是结果模型中的协变量,tmvarlist是处理变量模型中的协变量,groupvar是类变量,即同一处理时点的组群类别。

在模拟数据集中,registered是结果变量,观测层面的处理变量movie,组群变量定义在处理发生的层面,也识别聚类变量breed,best是结果模型的协变量。我们使用CS(2021)回归调整估计量:

xthdidregress ra (registered best) (movie), group(breed)

*每个处理类一个图
estat atetplot
image.png

还可以获得按类、按时间获得总的ATT:

* 按类
estat aggregation, cohort

*按时间
estat aggregation, time

image.png

image.png

还可以把上述时间的ATT以图的方式呈现:


image.png

还可以呈现事件研究图结果:

*事件研究

estat aggregation, dynamic graph
image.png

使用Wooldridge(2021)的估计量:

* Wooldridge估计量
xthdidregress twfe (registered best) (movie), group(breed)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容