【应用计量系列142】Bartik IV/SSIV到底要怎么应用?

Bartik IV/SSIV(Shift-Share IV)真的很火,去年至今参加的每一次会议都会遇到使用SSIV的经验研究。而最近,好多人给我发邮件,说审稿人总是说,“IV还是不能令人信服”。其实,这就是为什么“朋友不建议朋友用IV”的根本原因。

我的效应评估理念是“在目前的技术水平下,因果效应评估的应用研究永远得不到真实的处理效应(true ATE/ATT),因为ATE定义中的反事实结果永远观测不到数据。既然如此,做计量的(最终)目标并不是得到真实处理效应,而是要尽可能的“接近”真实处理效应”。而计量的过程就是这个“接近”的过程。

理论上,有效的IV是可以得到真实的处理效应的,不过现实中的IV同样面临的上述问题。所以在应用研究中,IV也要尽可能的“接近”真实的处理效应。而Bartik IV/SSIV利用的就是近似外生的冲击(要么来源于shift,要么来源于share)来接近真实处理效应的过程。但是,Bartik IV/SSIV在应用中到底要怎么做?

现在也有很多文献应用了SSIV,但是很可惜,大部分的文献都仍然停留在SSIV理论进展(Goldsmith-Pinkham, Paul, Isaac Sorkin, and Henry Swift. 2020;Kirill Borusyak, Peter Hull, Xavier Jaravel,2022;Kirill Borusyak, Peter Hull,2023)之前的阶段,仅仅只是应用SSIV的思想,而不是真正的应用它。我推荐的是,既然要用SSIV,就应用把最新的理论进展也应用了,不然为什么要“跟风”“追热点”?我也能猜到,为什么现在国内大部分经验研究仍然停留在SSIV理论进展之前的阶段:没有可参考的完整应用SSIV最新理论进展的经验文献。今天就给大家推荐一篇文章,希望对Bartik IV/SSIV最新理论进展应用感兴趣人都能好好读读,认真思考思考:

image.png

这篇文章已经发表出来了,复制代码和数据也是公开的。
Wright T J. Replication of “How much does immigration boost innovation?”[J]. Economic Inquiry, 2024.

Hunt and Gauthier‐Loiselle (2010) (hereafter HGL)研究了移民对创新的影响。Wright(2024)尝试重构HGL的IV,但是并不能与HGL完全一致。Wright(2024)首先重新估计了结果,并于原文结果对比,如下表1和2所示,分别对应原文的表7和表8结果。


image.png

两表的结果第一列是原文的结果,而第二列则是Wright(2024)重估的结果,两个结果都非常接近。所以即使IV数据与原文并不一致,仍然可以复制原文结果。

Bartik IV的最新理论进展应用

需要注意的是,Bartik IV/SSIV最新的进展就是关注其有效性。因此,源于shares的识别并不是SSIV有效的唯一方法。那么,如何呈现实证过程,展示哪种研究设计和识别假设符合我们的应用呢?

Goldsmith‐Pinkham et al. (2020)同时强调,描述研究设计,以展示共同冲击的差异化外生暴露。以移民为例,因为SSIV结合了许多变动(variation)来源,Goldsmith‐Pinkham et al. (2020)发现SSIV估计量等价于用精确识别的估计量和每个国家移民份额加权组合作为单一IV。Goldsmith‐Pinkham et al. (2020)将权重称为Rotemberg权重,\alpha_k。注意,有一些权重为负。

下表3呈现了正负权重之和、均值和占比,以及大学和研究生毕业两种类别各自的加权和。


image.png

对于大学毕业(panel A),有45.5%的权重为负,对于研究生(panel B),有44.4%的权重为负。权重之和(sum)是Rotemberg权重\alpha_k与点估计量的加权和,上述结果计算的是正负权重的工具。这是为了展示负权重的重要性——如果权重为负的工具的加权和很大(相对于正权重的工具),那么,我们认为收到负权重的点估计量驱动了总的估计效应。负权重在同质处理效应时并不是问题,但是对于异质性处理效应可能就会有偏误。在异质性处理效应下,负权重有可能会使得Bartik IV不具有LATE(局部平均处理效应)性质。在上表3中,负权重之和不算太大(panel A中是-0.099还算好理解,panel B中是-0.229,但是相对于Goldsmith‐Pinkham et al. (2020)考虑的-0.368还是算小的)。而加权和(第四列),大学毕业更小,而研究生更大。从目前的理论和应用来看,“多大算大”并没有实践标准(没有合意的阈值),但是,Goldsmith‐Pinkham et al. (2020)得到负权重工具的加权和的值为6%,正权重也类似的规模,而上表3中研究生的负权重工具的加权和为12%,而正权重达到23%。

此外,这些权重\alpha_k反映的是估计量对于第k个工具误设的敏感性。也就是说,\alpha_k越大,如果工具误设,那么偏误越大

为了刻画外生变动的来源,并且更好地理解研究设计如何暴露在误设敏感性中,Goldsmith‐Pinkham et al. (2020)还建议要计算移民的来源国的各自的权重。在移民对创新影响的例子中,有18个国家/地区用来构建工具:United Kingdom,Ireland, Italy, Germany, Poland, Russia, Other Europe, Canada, Mexico, Puerto Rico, Cuba, Other Caribbean, Central America, South America, China, India, Other Asia, and Rest of World。需要注意的是,这些权重虽然反映了误设对估计量的总偏误的相对影响,但是它们仍然允许估计量的绝对项存在较大的偏误。

图1和2分别画出了大学和研究生毕业生每年的权重:


image.png

image.png

从图中可以看出,1980年前,所有的国家都收到类似较小的权重(名字省略),而1970年后,来自亚洲和中国的移民收到相对较大的权重。

此外,表4展示了排名前五的国家-年份。对于大学毕业生,前五的国家收到超过55%的权重,而研究生,前五国家收到超过65%的权重。而且前五国家-年分中有四个来自2000。这些权重表明了外生变动的来源,并强调哪个个体对识别假设的至关重要的影响。在表4中,按照Goldsmith‐Pinkham et al. (2020)的逻辑,研究者应该主要考察来自“other Asia”和中国较多移民的地区与较少移民地区之间的比较,以及这些移民目的地是否有其它的一些特征(非移民渠道)来预测创新的变化,尤其是在2000年。


image.png

最重要的识别假设是Shares与条件于观测变量后的误差项变动无关。如果有其他的特征可以预测感兴趣的结果变量的变化,那么,上述假设就不成立。

表5呈现的结果是权重(\alpha_k)、恰好识别的点估计量(\beta_k)、国家移民增长率(g_k)。研究者应该关注被国家移民增长率(g_k)所解释的权重(\alpha_k)变化。也就是说,权重有多少可以被外生冲击(移民增长)所解释。

image.png

panel A显示相关性为0.869,panel B的相关性为0.616。这就意味着外生冲击可以解释大部分的权重变化。这为Bartik IV的假设提供了更多的经验证据支持,往真实的处理效应前进了一步。

除了为“识别来自于外生冲击”提供经验证据外,Goldsmith‐Pinkham et al. (2020)还建议,“识别也可能来自于shares”。尤其是,来自于不同国家的移民冲击可能对于不同目的地有差异化影响,这就是shares外生变动的来源。因此Goldsmith‐Pinkham et al. (2020)建议可以做如下检验:

  • 检验目的地特征与移民来源国sahres之间的相关性;

  • 检验处理前趋势;

  • 用备择估计量和过度识别检验。

表6呈现了目的地特征与移民来源国sahres之间的相关性检验结果。每一列都是用1940年移民来源国的share对1940年特征进行回归。从结果可以看出,(1)这些特征可以解释大量的shares变动,范围从18%-50%+(R^2);(2)影响较大的国家(中国),人均收入与shares之间有显著的正相关。对于其它国家,人口也是显著正相关的。此外,工具比变量与这些特征也是正相关。

image.png

为什么这些协变量预测了shares很重要,尤其是当协变量包含中回归中?这是因为如果协变量与shares正相关,那么,我们可能要考虑不可观测的变量也可能与shares相关,从而打破shares外生性的假设,最终使得SSIV研究设计无效。

Goldsmith‐Pinkham et al. (2020)建议做处理前趋势检验,类似于DID,选取一个相关的政策冲击。但是,有可能没有一个政策冲击,因此,我们可以检验1940年的shares是否可以系统性预测更大的创新变化,是否存在趋势。

图3和4呈现了处理前趋势检验(结果变量是过去10年专利对数的差分,且相较于控制变量提前一年),分别对top来源国的1940年shares与工具变量缩减形式回归。图中每个点都是将样本限制在对应的年份。在1960年,且对于那些来源于top权重的国家,尤其是中国和俄罗斯,标准误非常大。在剔除1960年后,也可以发现1950年的标准误较大。这意味着在较低移民的年份(1940-1950,1950-1960)工具变量是弱工具。

image.png

image.png

但是,结果中并没有显著的处理前趋势。

最后,用stata命令manyiv来估计其它IV估计量,如表7所示。

local github "https://raw.githubusercontent.com"
net install manyiv, from(`github'/gphk-metrics/stata-manyiv/main/)
manyiv _plugin_check
image.png

此外,图5和6还画出了权重和估计量系数的图。结果表明,更高权重的来源国与其它国家相比,并没有较大差异的估计系数(\beta)。与此同时,也有一些国家-年份观测值有非常大的估计系数(\beta),但是权重接近于0。

image.png

更多的SSIV检验:我的计量课程中多次讲过这些检验步骤:


image.png

image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容