前面,我们介绍过断点回归的一些基础原理与stata操作。今天,给大家介绍一下,当期断点回归理论方面的一些最新的进展,以及未来应用的方向。
一、分布/分位数处理效应
通常,我们利用断点回归得到的处理效应是平均处理效应(ATE),但是,ATE仅仅只展示出了政策效应的某一些方面。此外,一项政策/项目可能并不会影响平均处理效应(不显著),因为它可能会使得一部分样本受损,而让另一部分样本收益。例如,在共同富裕进程中,政策对居民收入分配的影响,这是政策制定者可能更感兴趣的是该政策如何影响低收入人群。当期,政府部门最关心的问题莫过于稳就业,那么,政策制定者可能最关心那些可能会长期失业者。
Frandsen et al(2012)显示,精确断点和模糊断点回归都可能识别分位数处理效应。Chiang et al(2019)则进一步提出了稳健的分位数RD推断。相关的代码请参见微信公众号“宏观研学会”的“2023年寒假量化社会科学讲习班”。
二、离散驱动变量
通常,我们运用的断点回归都假设驱动变量是连续的,但是在很多情况下,它是离散的,例如,年龄断点。在离散驱动变量的情形下,我们不可能找到断点附近任意距离的处理组和控制组。Cattaneo et al(2022)在最新的《断点回归设计实践导论》中为我们详细呈现了离散驱动变量断点回归的应用和稳健性检验。
三、连续处理变量
如果处理是驱动变量X的一个确定性函数,我们就可以根据驱动变量的一个阈值来定于处理状态0或者1。这是我们常见的一种二值型处理变量的断点回归,可以用精确断点回归来得到ATE。如果D并不是X的确定性函数,但是在X=c处有跳跃,我们就可以使用局部Wald比率来进行模糊断点回归。在通常的模糊断点回归中,结果变量Y(d)是线性的,那么,局部Wald比率识别的是函数的斜率。但是,Dong et al.(2019)不仅仅识别了处理的均值变化,还可以识别出分布的连续变化。这就为连续处理的RD提供了思路,Butts最近开发的R程序可以实现这一思路。
四、 未知断点
通常,我们都比较明确知道断点c,在c处,处理可能是不连续变化的。但是,在一些情形下,我们并不知道断点的位置。van der Klaauw(2002)研究中,断点没有明确,以避免断点被人为操纵。
Porter and Yu(2015)就考察了这些情形。在明确断点回归设计下,他们假设处理本身并不能被观察到。他们估计了每个可能的断点处的结果跳跃。然后,他们估计断点的位置以使得结果跳跃最大化。有趣的是,他们的断点估计量超级有效率:迅速收敛到真实的断点处。
在模糊断点设计中,处理可以被观测,但是并不是在断点处。因此,断点的位置可以使用相同的程序估计,但是应用于处理的概率。
五、弱断点问题
模糊断点估计量是一个工具变量估计量。跳跃的程度就测度了工具的强度。如果工具强度不高时,传统的推断方法并不可靠。这个问题可能又会被RDD较小的有效样本规模所放大。这就需要更加稳健的推断方法。
六、多断点
在一些应用中,对于不同的个体可能存在不同的断点。例如,不同的地区有不同的大学入学率。Cattaneo et al. (2016)显示pooled RDD估计量收敛到特定断点处理效应的加权平均。但是,当处理效应是异质性的时候,这种加权平均难以得到有效的经济学的含义。Cattaneo et al. (2021,JASA)处理了这种情形。
七、多驱动变量
通常,我们见到的处理依赖于单一驱动变量,例如,中国实施的草原生态保护政策(GECP),驱动变量就是蒙古国和内蒙古到中蒙边界的距离。又例如,新农保的驱动变量是60岁等等。但是,在很多情形下,处理配置依赖于许多驱动变量。例如,高新技术企业的认定需要满足研发投资、研发人员等要求。
八、RKD(RKD-DID)
RDD考察的是断点处的跳跃,RKD考察的是处理函数导数的跳跃。而RKD-DID则是多期断点回归的应用。