2、PSM的stata应用
以数据集ldw_exper.dta为例,该数据集包含结果变量re78(1978年实际收入),处理变量t(是否参加就业培训),协变量age(年龄),educ(教育年限),black(是否为黑人),hisp(是否为拉丁裔),married(是否结婚),re74(1974年实际收入),re75(1975年实际收入),u74(1974年是否失业),以及u75(1975年是否失业)。
作为参照,首先进行引入协变量的OLS回归。
reg re78 t age educ black hisp married re74 re75 u74 u75,r
OLS回归的结果可知,平均处理效应为1.672,即参加就业培训平均能使得1978年的实际收入提高1794美元。且通过了0.05水平下的显著性检验,但是协变量中除educ和black通过了5%水平上的显著性检验之外,其他协变量均不显著。考虑到可能存在选择偏差,结果并不可信。
下面进行倾向得分匹配,这之前,需要将数据随机排序。为了得到和作者一致的结果,我们要先设置相同的随机数种子。
set seed 10101
gen ranorder = runiform()
sort ranorder
接下来进行一对一匹配,由于样本容量较小,选择有放回的匹配,并且允许并列。
psmatch2 t age educ black hisp married re74 re75 u74 u75,outcome(re78) n(1) ate ties logit common
该表的结果汇报了ATT值为1.41,相比于OLS回归结果略小,但对应T值为1.68,小于临界值1.96,所以没有通过显著性检验。
该表汇报了观测值是否在共同取值范围中。在总共445个观测值中,控制组共有11个不再共同取值范围之中,处理组有2个不在同一取值范围中。所汇报的标准误,没有考虑倾向得分为估计所得的事实(即假设倾向得分为真实值,然后推导标准误),此标准误另一假设为同方差,所以考虑使用自助法来得到标准误。
bootstrap r(att) r(atu) r(ate),reps(500) : psmatch2 t age educ black hisp married re74 re75 u74 u75,outcome(re78) n(1) ate ties logit common
上表显示,ATT的自助标准误为0.93。上表还汇报了ATU和ATE的标准误。可知,ATE和ATU在10%水平上显著,而ATT并不显著。
使用命令pstest来考察此匹配结果是否较好地平衡了数据。
pstest age educ black hisp married re74 re75 u74 u75,both graph
部分变量结果显示,可以发现,匹配后大多数变量的标准化偏差小于10%,似乎可以接受,但是我们发现大多数t检验的结果不能拒绝原假设,即处理组与控制组无系统性差异。更为直观的,可以看输出的各变量的标准化偏差图。
上图可知,大多数观测值均存在共同取值范围内,所以在进行倾向得分匹配时不会损失较低样本量。
进一步的,我们选择用k近邻匹配法,选择k=4。
psmatch2 t age educ black hisp married re74 re75 u74 u75,outcome(re78) n(4) ate ties logit common
一对四匹配的结果与一对一匹配的结果类似,只是ATT的估计值差异较大,下面,进行卡尺内一对四匹配。首先计算倾向得分的标准差,然后乘以0.25。
sum _pscore
用标准差(0.079)乘以0.25可得,卡尺范围约等于0.02。这意味着对倾向得分相差2%的观测值进行一对四匹配。
psmatch2 t age educ black hisp married re74 re75 u74 u75,outcome(re78) n(4) cal(0.02) ate ties logit common
上表显示,ATT估算结果和简单一对四匹配结果类似,说明大多数一对四匹配均发生在卡尺0.02的范围内,不存在太远的近邻匹配。然后,考虑进行半径匹配。
psmatch2 t age educ black hisp married re74 re75 u74 u75,outcome(re78) radius cal(0.01) ate ties logit common
与上述结果依然类似,下面进行核匹配和局部线性回归匹配并查看结果,均采用默认的核函数和带宽。
最终结果显示,马氏匹配的结果与倾向得分匹配的结果类似,进一步说明了上述结果的稳健性,综上所述,我们认为参加培训的平均处理效应为正,其经济效应大概能为参与者提高1900美元每年。结果略大于OLS估计的结果,符合我们的预期。且通过了显著性检验。