倾向得分匹配法（PSM）

2、PSM的stata应用

以数据集ldw_exper.dta为例，该数据集包含结果变量re78（1978年实际收入），处理变量t（是否参加就业培训），协变量age（年龄），educ（教育年限），black（是否为黑人），hisp（是否为拉丁裔），married（是否结婚），re74（1974年实际收入），re75（1975年实际收入），u74（1974年是否失业），以及u75（1975年是否失业）。

作为参照，首先进行引入协变量的OLS回归。

reg re78 t age educ black hisp married re74 re75 u74 u75,r

OLS回归的结果可知，平均处理效应为1.672，即参加就业培训平均能使得1978年的实际收入提高1794美元。且通过了0.05水平下的显著性检验，但是协变量中除educ和black通过了5%水平上的显著性检验之外，其他协变量均不显著。考虑到可能存在选择偏差，结果并不可信。

下面进行倾向得分匹配，这之前，需要将数据随机排序。为了得到和作者一致的结果，我们要先设置相同的随机数种子。

set seed 10101

gen ranorder = runiform()

sort ranorder

接下来进行一对一匹配，由于样本容量较小，选择有放回的匹配，并且允许并列。

psmatch2 t age educ black hisp married re74 re75 u74 u75,outcome(re78) n(1) ate ties logit common

该表的结果汇报了ATT值为1.41，相比于OLS回归结果略小，但对应T值为1.68，小于临界值1.96，所以没有通过显著性检验。

该表汇报了观测值是否在共同取值范围中。在总共445个观测值中，控制组共有11个不再共同取值范围之中，处理组有2个不在同一取值范围中。所汇报的标准误，没有考虑倾向得分为估计所得的事实（即假设倾向得分为真实值，然后推导标准误），此标准误另一假设为同方差，所以考虑使用自助法来得到标准误。

bootstrap r(att) r(atu) r(ate),reps(500) : psmatch2 t age educ black hisp married re74 re75 u74 u75,outcome(re78) n(1) ate ties logit common

上表显示，ATT的自助标准误为0.93。上表还汇报了ATU和ATE的标准误。可知，ATE和ATU在10%水平上显著，而ATT并不显著。

使用命令pstest来考察此匹配结果是否较好地平衡了数据。

pstest age educ black hisp married re74 re75 u74 u75,both graph

部分变量结果显示，可以发现，匹配后大多数变量的标准化偏差小于10%，似乎可以接受，但是我们发现大多数t检验的结果不能拒绝原假设，即处理组与控制组无系统性差异。更为直观的，可以看输出的各变量的标准化偏差图。

上图可知，大多数观测值均存在共同取值范围内，所以在进行倾向得分匹配时不会损失较低样本量。

进一步的，我们选择用k近邻匹配法，选择k=4。

psmatch2 t age educ black hisp married re74 re75 u74 u75,outcome(re78) n(4) ate ties logit common

一对四匹配的结果与一对一匹配的结果类似，只是ATT的估计值差异较大，下面，进行卡尺内一对四匹配。首先计算倾向得分的标准差，然后乘以0.25。

sum _pscore

用标准差（0.079）乘以0.25可得，卡尺范围约等于0.02。这意味着对倾向得分相差2%的观测值进行一对四匹配。

psmatch2 t age educ black hisp married re74 re75 u74 u75,outcome(re78) n(4) cal(0.02) ate ties logit common

上表显示，ATT估算结果和简单一对四匹配结果类似，说明大多数一对四匹配均发生在卡尺0.02的范围内，不存在太远的近邻匹配。然后，考虑进行半径匹配。

psmatch2 t age educ black hisp married re74 re75 u74 u75,outcome(re78) radius cal(0.01) ate ties logit common

与上述结果依然类似，下面进行核匹配和局部线性回归匹配并查看结果，均采用默认的核函数和带宽。

最终结果显示，马氏匹配的结果与倾向得分匹配的结果类似，进一步说明了上述结果的稳健性，综上所述，我们认为参加培训的平均处理效应为正，其经济效应大概能为参与者提高1900美元每年。结果略大于OLS估计的结果，符合我们的预期。且通过了显著性检验。