Heckman两步法(3)

五、已有文献的简单评述

Lennox et al.（2012）总结了样本选择模型和处理效应模型在会计学领域中应用的几点问题，这几个问题也完全可以延申至其他领域。

第一，选择方程中没有引入排他性约束（Exclusion Restrictions）变量，也即上文所说的外生解释变量或工具变量；就算引入了外生变量，也没有对外生变量的相关性和外生性进行详细说明。
第二，没有汇报第一阶段的回归结果，因而无法判断是否包含外生变量，更无法判断外生变量的引入是否有效。

5.1 常见问题

除了以上几点，现阶段文献中经常出现的问题还有：

第一，混淆样本选择偏差和自选择偏差。如前文所述，样本选择偏差和自选择偏差有着本质上的不同，最关键的不同在于非随机选择的机制是不同的。由于数据缺陷，多数文献出现的内生性问题其实并非由样本选择偏差所导致，就算怀疑存在样本选择偏差，也囿于数据而无法进一步实施样本选择模型的回归操作。而论文中常见的做法是，通篇说的样本选择偏差，但实际出现的问题在于处理变量D的取值不随机，也即本质上是自选择偏差；或者，样本选择偏差与自选择偏差这两种说法混着用。这样的做法也确实给读者造成了困扰，笔者之前阅读过多篇论文，确实感觉不同论文这对方面的说明大相径庭。而正是由于对问题的界定不清晰，所以造成了对模型使用的偏误。
第二，混淆样本选择模型和处理效应模型。现阶段文献对样本选择模型和处理效应模型的实际操作主要有三种：heckman、etregress和手工两步法，其中heckman和手工两步法用的最多，etregress几乎没有。但是，正如前面所说的，样本选择模型由于数据缺陷在应用中不具有可操作性，因此heckman在多数文献中本意是解决自选择偏差，因此部分文献在heckman选择方程中设置被解释变量为D而非y_dummy就不足为奇了，但这样的做法是有问题的，除了模型使用的混淆，更重要的在于两种模型在前后两步中参与回归的样本数目是不同的，并且两种模型在计算IMR时使用的公式也不同，因此模型混用可能反而进一步导致估计偏误。此外，无论是heckman还是etregress，以及手工操作，两步估计法都不推荐使用，比较而言，MLE得出的结果更稳健。

5.2 经典论文解析

下面将解析两篇经典论文。考虑到多数文献本质上存在的是自选择偏差，而分析样本选择偏差并使用样本选择模型的（中文）文献并不多见，因此下面两篇论文均是从样本选择偏差角度来分析内生性问题。

第一篇论文是陈云松（2012）发表在《社会》的《农民工收入与村庄网络基于多重模型识别策略的因果效应分析》，研究主题是探讨社会网络对农民工在外务工收入的影响。

[8] 陈云松. 农民工收入与村庄网络基于多重模型识别策略的因果效应分析[J]. 社会, 2012, 32(04): 68-92.

以下是基准回归方程：

$W_{ig}=\beta _0+\beta _1S_g+\beta _2X_{ig}+\beta _3V_g+\varepsilon \tag{3}$

其中， $W_{ig}$ 表示第 $g$ 个村庄第 $i$ 个农民工在城市务工的工资； $S_g$ 代表社会网络，用村庄在外务工的人数来表示，在论文中作为核心解释变量； $X_{ig}$ 表示个人层面的控制变量； $V_g$ 是村庄层面的控制变量。

文章怀疑农民工在外务工可能是一个选择行为，因为具有城市劳动力市场优势（男性、年轻和能力强等）的农民会更倾向于外出打工。论文进一步将这种选择性的来源分为可观测因素和不可观测因素，可观测因素包括年龄、性别等，不可观测因素包括性格、能力等。因此，在模型设置时必须要考虑样本群体是否随机和均质，即样本选择偏差问题。

在本例的数据集结构中，被解释变量 $W_{ig}$ 存在缺失值，而由于不在外务工的农民本身就不具有在外务工的工资数据（即使他们有其他来源的收入，但不是文章研究的重点），因此这些缺失值存在的原因就是这些被调查的样本本身就不在外务工。而由于前面提到的农民是否在外务工可能是一个选择行为，即 $W_{ig}$ 存在缺失值的样本与 $W_{ig}$ 取值不为空的样本在某些特征因素方面本身就存在较大的差异，因此如果在回归时直接剔除这部分取值为空的样本，最后得到的结果就可能存在估计偏误，也就是说在考虑到样本选择偏差的情况下，基准回归结果可能就不再具有稳健性。

为了解决可能存在的样本选择偏差问题，作者使用了样本选择模型中的两步估计法（Heckit）。Heckit由以下方程组构成：

$W_{ig}=\beta _0+\beta _1S_g+\beta _2X_{ig}+\beta _3V_g+\beta _4\hat P_{ig}+\varepsilon \tag{4}$

$P_{ig}=\gamma _0+\gamma _1F_{ig}+\gamma _2S_g+\gamma _3X_{ig}+\gamma _4V_g+\mu \tag{5}$

其中，方程 $(5)$ 是第一阶段回归方程（选择方程），方程 $(4)$ 是第二阶段回归方程； $\hat P_{ig}$ 是逆米尔斯比率； $P_{ig}$ 代表样本是否外出务工的虚拟变量，即样本在外务工取值为1，否则为0； $F_{ig}$ 是选择方程中的外生解释变量，论文中选择的是家庭劳动力人数；方程 $(4)$ 的所有解释变量，是方程 $(5)$ 解释变量的严格子集（真子集）。

论文还对外生变量 $F_{ig}$ 的相关性与外生性进行了说明，认为家庭劳动力数量对农民工的打工决策有着重要影响，而对在外务工收入的影响微乎其微，具体分析请看原文。

事实上，这里存在两个问题：

第一，在选择方程中，作者使用logit模型进行回归，正如前文所述，logit模型不具备干扰项服从正态分布的假设，因此根据第一步回归拟合值计算出的IMR可能存在一定程度的偏误。
第二，方程 $(4)$ 和方程 $(5)$ 对 $\hat P_{ig}$ 或 $P_{ig}$ 的界定不清晰，因为方程 $(4)$ 中的 $\hat P_{ig}$ 本意应该是IMR，而非字母本身所表达的“ $P_{ig}$ 的拟合值”的含义，而IMR正是由“ $P_{ig}$ 的拟合值”计算所得。

下表是基准OLS回归与Heckit第二步回归结果的对比，括号内为各变量估计系数的聚类稳健标准误，以村庄为聚类单位；Heckit的第一步回归结果论文并未列示，这里假定外生解释变量在第一步回归中显著且有效。

	(1) OLS	(2) Heckit
社会网络	0.125*** (0.0349)	0.263*** (0.0760)
个体、村庄控制变量	YES	YES
IMR	—	0.754** (0.3790)

可以观察到，Heckit第二步回归结果中IMR显著为正，且数值较大（相较于其他控制变量的估计系数而言，详细结果请看原文），这说明基准OLS回归确实存在样本选择偏差，造成估计偏误，具体来说是低估了社会网络对农民工在外务工收入的影响，因为OLS模型中社会网络的估计系数仅有0.125，而Heckit模型的估计系数（0.263）是其两倍还多，且两者均至少在1%的水平下显著。至于为什么社会网络的收入促进效应在Heckit模型中高于OLS，作者在原文中给出了解释。

值得一提的是，为了解决一般性的因遗漏变量和联立方程（互为因果）导致的估计偏误问题，作者在样本选择模型的基础上进一步采用工具变量法，即采用IV - Heckit对基准OLS的稳健性进行进一步的检验，详情请看原文。

第二篇论文是祝树金和赵玉龙（2017）发表在《金融研究》的《资源错配与企业的出口行为——基于中国工业企业数据的经验研究》，主题是探讨企业资源错配对出口行为的影响。

[9] 祝树金, 赵玉龙. 资源错配与企业的出口行为——基于中国工业企业数据的经验研究[J]. 金融研究, 2017(11): 49-64.

论文一开始就考虑到了样本选择偏差问题，认为企业是否出口受制于自身条件，简单将出口企业与非出口企业同等对待将产生估计偏误，因此构建样本选择模型对这种偏误进行纠正。构建的两阶段模型如下：

$exdum_{it}=\alpha _1miss_{it-1}+\sum _1^J\beta _jX_{j,it-1}+\delta_{it} \tag{6}$

$exshare_{it}=\alpha _2miss_{it-1}+\sum _1^J\beta _jZ_{j,it-1}+\varepsilon_{it} \tag{7}$

公式 $(6)$ 是第一阶段的企业出口选择方程，其中，被解释变量 $exdum_{it}$ 代表第 $t$ 年 $i$ 企业的出口状态，若有出口行为，该变量记为1，否则记为0；考虑到出口滞后效应，第一、二阶段所有解释变量均滞后一期； $miss_{it-1}$ 是论文的核心解释变量企业资源错配，分别使用企业资源错配指标 $miss1$ 、 $\tau k$ 和 $\tau l$ 来表示； $X_{j,it-1}$ 是影响企业出口决策的第 $j$ 个控制变量，包括一个外生解释变量 $exdum_{it-1}$ ，即企业前一期是否出口的虚拟变量，作者认为该变量满足相关性和外生性的要求，以及其他控制变量。

公式 $(7)$ 是第二阶段的回归方程，其中，被解释变量 $exshare_{it}$ 表示企业出口强度； $Z_{j,it-1}$ 表示影响企业出口强度的控制变量，这些控制变量包括第一阶段的所有控制变量（除 $exdum_{it-1}$ ），以及一个根据第一阶段回归拟合值计算的IMR。

回归结果汇总如下（限于篇幅限制，这里仅展示核心解释变量为 $miss1$ 的回归结果；括号内为标准误，具体类型未告知）：

	(1) $exdum$	(2) $exshare$
$miss1_{t-1}$	0.012*** (0.0030)	0.008*** (0.0009)
$exdum_{t-1}$	2.791*** (0.0099)	—
控制变量	YES	YES
行业、年份	YES	YES
$Wald~chi^2$	11,949.25***(右同)
$\rho$	-0.3858***(右同)
$N$	177,386	177,386

可以发现（ $Wald~chi^2$ 和 $\rho$ 的那两列结果应该合并为一列，markdown表格合并比较麻烦~），第一步选择方程（模型 $(1)$ ）中，外生变量的估计系数显著为正，说明外生变量的选择有效；第二阶段回归（模型 $(2)$ ）中，核心解释变量的估计系数显著为正，说明在考虑样本选择偏差的情况下，企业资源错配仍对企业出口强度产生促进作用。需要注意的是：

模型 $(1)$ 和模型 $(2)$ 引入行业虚拟变量和年份虚拟变量，并在结果汇报中称之为行业（效应）和年份（效应），而非行业固定效应与年份固定效应，这种做法是比较严谨的，因为第一阶段的probit回归不能使用固定效应模型。
模型 $(1)$ 和模型 $(2)$ 使用的样本数是不同的，模型 $(1)$ 使用的样本数应该多于模型 $(2)$ 。然而，结果显示两步回归均使用了177,386个样本，因此猜测论文中的样本选择模型是使用MLE方法进行估计的，因为MLE从模型整体角度进行参数估计，参与回归的样本一般汇报为样本总数。
模型 $(2)$ 没有汇报IMR的估计系数，而仅仅汇报两步回归方程干扰项之间的相关系数 $\rho$ ,因此可以基本断定该样本选择模型就是使用MLE方法进行估计的。 $\rho$ 在1%的水平下显著为负，说明模型中存在的样本选择偏差不能忽视。

Heckman两步法(3)