如果你想跟进DID的最新进展,可以首先阅读以下综述型文献:
- Andrew C. Baker , David F. Larcker, Charles C. Y. Wang (2022). How Much Should We Trust Staggered Difference-In-Differences Estimates? Journal of Financial Economics.
- Jonathan Roth , Pedro H.C. Sant’Anna , Alyssa Bilinski , John Poe (2022). What’s Trending in Difference-in-Differences? A Synthesis of the Recent Econometrics Literature.
- Clément de Chaisemartin , Xavier D’Haultfoeuille (2021). Two-Way Fixed Effects and Differences-in-Differences with Heterogeneous Treatment Effects: A Survey. The Econometrics Journal.
- Callaway, B. (2022). Difference-in-Differences for Policy Evaluation. arXiv preprint arXiv:2203.15646.
如果你实在没有时间看这些英文文献,也可以跟踪宏观研学会的【应用计量系列】。
本推文主要翻译Callaway, B. (2022)的第一部分,更详细的内容请参见上述文献全文。
本章回顾政策评估中DID的最新进展。DID在应用经济学研究中非常受欢迎,它也是流行计量课本中最重要的内容之一,例如,Angrist and Pischke (2008)和Cunningham (2021)。尽管DID识别策略已经在经济学研究领域流行了30多年(Card (1990) 和Card and Krueger (1994)),但近些年, DID方法论已经得到了极大的更新与发展。许多有影响力的文献都指出DID识别策略中常用的双向固定效应模型存在一些严重的问题(Meer and West(2016), de Chaisemartin and D'Haultfuille (2020), Borusyak, Jaravel, and Spiess (2021), Goodman-Bacon (2021), Sun and Abraham (2021), Athey and Imbens (2022), and Ishimaru (2022))。本章的主要目的就是综述这些文献,并回顾他们所提出的新的方法以避免TWFE估计量的偏误。
在综述之前,我们先谈谈DID的概念及其特性。第一,DID识别策略包括观测处理前时期的处理个体和处理后时期的处理个体——被称为“处理组”。观测处理前后的个体对于估计因果效应具有非常大的价值。这也是DID归类于“自然实验”的主要原因,同时也是与其他传统面板数据方法的主要差异。
第二,DID策略主要关注于识别和估计处理组的平均处理效应(ATT)——即那些从未处理转换到处理状态的个体的平均处理效应。ATT等于处理组处理时期的平均结果减去处理组如果没有接受处理时的平均结果。因此,DID的关键识别挑战是得到处理组的“反事实”结果。DID的关键识别建设是平行趋势——没有处理时,处理组的反事实结果与未处理组的结果“相同”。
第三,DID识别策略允许异质性处理效应。参与处理的效应可以在个体之间发生变化,也可以在时间上发生变化,也可以经历不同的处理时间。
实施DID识别策略的主要方法是TWFE回归。最简化、最常用的版本为:
其中,表示结果变量,和分别表示时间和个体固定效应,表示二值型处理变量,处理为1,否则为0。
在平行趋势和同质性处理效应下,上述TWFE回归中的等于处理效应。然而,在异质性处理效应下,研究者通常将作为总的平均处理效应。TWFE回归给出单一的处理效应度量,这也是它的优势。但这类TWFE回归对于异质性处理效应并不稳健(Goodman-Bacon (2021), de Chaisemartin and D'Haultf uille (2020), and Borusyak,Jaravel, and Spiess (2021))。研究者希望TWFE回归允许异质性处理效应,也可以完全将处理效应包含在单一的参数中,但是TWFE只能实现其中一个目的。其实也要理解研究者,因为他们既想要研究结果科学合理稳健,又要用单一指标来解释给读者或者政策制度者听。Wooldrige(2021)指出:“一个重要结论是TWFE作为一种估计方法本身并没有什么问题。问题是将它应用于一个带有太多限制的模型。”因此,他提出了一个备择的TWFE回归来包含更多交互项,以允许更一般化的异质性处理效应,但是这也为“加总”获得单一参数带来很大的麻烦。Goodman-Bacon (2021)从另一个角度对TWFE估计量不稳健提出了解释:是处理状态发生变化的个体与处理状态不变的个体之间比较结果的加权平均。这些比较包括(1)用“还未处理的个体”作为对照组,(2)用“已经处理的个体”作为对照组。第一类就是DID常用的比较,但是第二类(有时称为“坏的对照组”或者“禁止的对照组”)在应用研究中并不能得到合意的结果,会导致处理效应有偏,尤其是存在动态处理效应时。即使在没有动态处理效应时,处理效应参数背后的权重仍然受估计方法影响——会导致总的处理效应估计量与实际处理效应存在差异。即使识别策略有效,这些问题也为我们思考估计策略引起的处理效应估计量偏误提供了方向。DID的最新进展的主要贡献之一就是更清晰地分离了识别假设和估计方法。
本章的另一个目的就是比较新的估计方法,即比较Callaway and Sant'Anna (2021)的方法、Liu, Wang, andXu (2021), Gardner (2021)和Borusyak, Jaravel, and Spiess (2021)提出的“插补法”,以及Sun and Abraham (2021) ,Wooldridge (2021)的回归法。(译者注:(1)还有其他类型的方法,参见上述文献;(2)也有一些人将Wooldridge (2021)的方法归于插补法)所有这些方法都有类似的步骤:第一步,明确进行“好的对照组”比较,并避免“坏的对照组”比较;第二步,加总这些处理效应参数为感兴趣的目标处理效应估计量(例如,总的ATT或者事件研究估计量)。这表明,DID的新方法非常相似,但它们也不会得到完全相同的结果。主要的原因是在软件实施过程中选择了不同的算法。例如,Callaway and Sant'Anna (2021)和Sun and Abraham (2021) 的软件实施仅仅对处理前的一些时期到处理前一期施加平行趋势假设,而Gardner (2021)、Borusyak, Jaravel, and Spiess (2021)、Wooldridge (2021)则对整个时期施加平行趋势假设。实践中,对更长时期施加平行趋势会使得估计策略更加有效率,而对更短时期施加平行趋势则对违反平行趋势假设更加稳健。但是这并不是根本性差异,据我所知,这些方法有两个主要差异:包含协变量的平行趋势假设情形下,Callaway and Sant'Anna (2021)的双重稳健方法对协变量进入模型的方式(函数形式)施加更弱的限制;另一方面,Liu, Wang, andXu (2021), Gardner (2021)和Borusyak, Jaravel, and Spiess (2021)提出的“插补法”则很容易实施,因为这种方法只需要估计面板数据回归,并计算预测值。
此外,本章还关注两个扩展,第一个是平行趋势假设仅仅在条件于协变量时成立,例如,处理对个体收入的影响,因为收入还依赖于个体特征和教育年限。如果这些变量在处理组和对照组有不同的分布,那么,“无条件”平行趋势假设很难成立。DID最新进展已经可以应对平行趋势假设中的协变量问题。而且本章还会讨论处理影响协变量(有时称为“坏的控制变量”)和响应的方法(译者注,也可以去看许老师的“事件研究的秘密”b站视频和工作论文)。
第二个是平行趋势不成立的敏感性分析。阐述平行趋势假设最常用的方式就是用下列未处理潜在结果模型:
其中,表示个体在未处理时的潜在结果,是时间固定效应,是个体固定效应允许在处理组和对照组之间有不同的分布,是异质性时变不可观测因素(Blundell and Costa Dias (2009), Gardner (2021), and Borusyak, Jaravel, and Spiess (2021))。这些变量虽然与TWFE中的符号相同,但是对它们的理解不能等同于TWFE的理解。上述模型有一些优势:
- 第一,对未处理潜在结果没有施加任何限制和约束;
- 第二,允许任意程度的异质性处理效应;
- 第三,个体可以选择进入处理,但要基于潜在处理结果,或基于影响潜在未处理结果的时间不变不可观测变量,不能基于时变不可观测因子。
除此之外,平行趋势假设还严重依赖于时间和个体固定效应的加法可分性,但是研究者很难进行事前评估其有效性。因此,本章也强调Manski and Pepper (2018)和Rambachan and Roth (2021)(可以参见【应用计量系列65】)的贡献——限制DID的处理效应,即处理后的结果不显著前可以在多大程度上违反平行趋势假设。这类敏感性分析最大的挑战在于“多大程度”到底是多大。
总而言之,有三个主要的实践建议:
- 第一,虽然经典TWFE和事件研究结果与最新稳健估计量相似,但如果存在显著的差异,那么,研究者应该使用新的DID估计量;
- 第二,新的方法都要求研究者在DID中作出好的选择;
- 第三,除了处理前趋势检验,对平行趋势假设进行敏感性分析。