方法二、均值差异检验(difference in mean,DIM)
DIM也是DID中一种常用的平行趋势假设检验,或处理组和控制组可比性的检验,它的原假设是“没有差异”,例如,彭飞,许文立,吕鹏,吴华清(2020)研究了“营改增”对企业非税负担的影响,就用均值差异检验提供了“营改增”的企业与非“营改增”企业非税负担之间的可比性。
上图报告了企业非税负担均值差异特征。从Part A 来看,非试点企业的规费支出在“营改增”前后的均值差异系数虽然为负,但不显著,初步表明,对照组企业的非税负担在“营改增”之后没有发生显著变化。与其不同,试点企业的规费支出在“营改增”之后显著增加。从Part B 来看,“营改增”之前,试点企业与非试点企业非税负担没有显著差异,而在“营改增”之后,试点企业的非税负担显著高于非试点企业。从营业收入对数均值差异来看,不论是“营改增”之前还是“营改增”之后( Part B) ,试点企业的营业收入都显著高于非试点企业,且“营改增”之后,两组企业的差距有扩大的迹象。
又例如,Liu, Wang and Xu(2022),详细的解读参见【香樟推文2481】面板数据因果推断实操指南。
三、事件研究
目前的DID实践中,最常用的平行趋势检验方法称为“处理前趋势检验”。从理论上来说,处理前时期,处理并未发生,因此,处理前时期的ATTs=0。因此,大家都要检验传统的处理前趋势检验是通过检验一个参数𝜃=0, 𝜃=0表示处理组和控制组完美平行 ,不等于0表示在一定程度上偏离了平行趋势,也就是说,平行趋势检验类似于检验假设:
它主要是利用事件研究法来呈现出处理前各个时期的安慰剂处理效应。(Cunningham,2020),例如,彭飞,许文立,吕鹏,吴华清(2020)、 Miller, Sarah, Sean Altekruse, Norman Johnson, and Laura R. Wherry(2021)。Roth(2022)统计了AEA的主要期刊上70多篇用事件研究的文章,最后用了12篇作为样本总结发现,实践中,处理前趋势检验最常用的标准:处理前单个系数的显著性,或者联合显著性,前者更常用。
很多人实际上有个误区:处理前系数全部不显著才说明处理前趋势检验通过,或者为平行趋势假设提供了可信的经验证据,只要有一个处理前系数显著,结果就不行,然后疯狂地抓头发,焦虑文章废了!
其实,从Roth(2022)的统计来看,顶刊上的处理前趋势检验也不需要全部的处理前系数都不显著,例如,上表中有三篇文章至少有一个处理前系数是显著的。在实践中,我们更多的是关注绝大多数系数不显著即可。
换句话书,在事件研究中,处理前系数有个别显著也很正常,具体的原因请参见我和浙江大学Xiufen Liu et al(2022)、我和东财周闯、郑旭刚(2022)的研究。
实践中,我们通常呈现出处理前后的相对事件时间的系数:
表4 第( 1) 列结果显示,在改革之前,试点企业与非试点企业的规费支出没有显著差异,为平行趋势假设提供了一定的处理前的经验证据。而在改革之后, reform2系数高于reform1,意味着随着“营改增”的推进,企业非税负担面临加重的趋势。随着增值税抵扣链条不断完善,可抵扣范围增加,企业税收负担不断降低,为了应对税收收入减少,地方可能会加强非税收入征管,所以非税负担加重的风险增加。为了增强结论的稳健性,结合反事实思想,考察了“营改增”对企业其他支出的平行趋势结果。第( 2) 和( 3) 列结果显示,在“营改增”前后,没有发现试点企业和非试点企业在捐赠和社会保险支出方面的显著变化。
大家更常见地呈现处理前趋势检验的方式是事件研究图。例如,He and Wang(2017)研究的中国“大学生村官”对减贫的效应,处理前趋势检验的事件研究图为:
根据上图,He and Wang(2017)下结论,“处理前系数都不显著…可以认为处理组和控制组处理前的结果趋势相似…未处理的村庄可以作为很好的对照组。”
四、处理前趋势检验的问题讨论
虽然,实践中,最常用的平行趋势检验方法是处理前趋势检验。如果相同趋势的原假设不能被拒绝,那么,研究者会认为PT假设可能对于处理后也会成立。但是,严格来讲,处理前PT经验证据与处理后PT假设并不等同,因此,我们就需要额外的、更多的关于处理后PT的讨论。正如Callaway and Sant' Anna(2022)所说:
重要的是,它仅仅只是一个处理前趋势检验;它与实际的PT检验并不相同。PT假设在处理前是否成立并不能告诉我们当前时期PT是否成立。处理前PT成立,处理后PT不成立也是可能的;处理前PT不成立,处理后PT成立也是可能的。我们只能说,将处理前趋势检验看作是DID设计可信性证据的一部分。
也就是说,处理前趋势检验对于DID的有效性来说,既不必要,也不充分(Kahn-Lang and Lang 2018)。我们很难从经验上证明PT假设是否成立,因为处理组未处理的潜在结果变量不可观测。因此,说服读者相信我们的PT假设是DID文献中最重要、最富争议的内容。例如,Kearney, Melissa S., and Phillip B. Levine(2015)识别了MTV的电视节目对青少年怀孕的影响,也提供了平行趋势检验。但是,学界对这篇文章的结论有极大的争议 (Jaeger, Joyce, and Kaestner, 2018; Kahn-Lang and Lang, 2019)。
Roth (2022,AER:insights) 指出了,处理前趋势检验的问题:(1)处理前趋势检验效力较低——AEA期刊上的文献,即使平行趋势假设不满足,可能也不会发现显著的处理前系数,效力一般在50%-80%;(2)处理前趋势检验偏误——DID效应依赖于处理前趋势检验,它本身存在问题,所以会更加恶化处理后的处理效应估计。
如果处理前趋势检验有问题,那还能做什么?
至少还可以做以下几个方面的工作:(1)处理前趋势的效力检验;(2)处理前趋势的敏感性检验;(3)等价性检验;(4)证伪分析;(5)制度/经济/社会背景分析;等等
未完待续...
如果这些内容,对大家有帮助,或者引用我的内容,请引用我的工作论文:
引用格式: 许文立. 平行趋势的秘密:我们要多相信平行趋势假设检验的证据?[J] 2022, 工作论文,https://wenddymacro.github.io/Wenddy-XU/.