Heckman两步法(3)

五、已有文献的简单评述

Lennox et al.(2012)总结了样本选择模型和处理效应模型在会计学领域中应用的几点问题,这几个问题也完全可以延申至其他领域。

  • 第一,选择方程中没有引入排他性约束(Exclusion Restrictions)变量,也即上文所说的外生解释变量或工具变量;就算引入了外生变量,也没有对外生变量的相关性和外生性进行详细说明。
  • 第二,没有汇报第一阶段的回归结果,因而无法判断是否包含外生变量,更无法判断外生变量的引入是否有效。

5.1 常见问题

除了以上几点,现阶段文献中经常出现的问题还有:

  • 第一,混淆样本选择偏差和自选择偏差。如前文所述,样本选择偏差和自选择偏差有着本质上的不同,最关键的不同在于非随机选择的机制是不同的。由于数据缺陷,多数文献出现的内生性问题其实并非由样本选择偏差所导致,就算怀疑存在样本选择偏差,也囿于数据而无法进一步实施样本选择模型的回归操作。而论文中常见的做法是,通篇说的样本选择偏差,但实际出现的问题在于处理变量D的取值不随机,也即本质上是自选择偏差;或者,样本选择偏差与自选择偏差这两种说法混着用。这样的做法也确实给读者造成了困扰,笔者之前阅读过多篇论文,确实感觉不同论文这对方面的说明大相径庭。而正是由于对问题的界定不清晰,所以造成了对模型使用的偏误。
  • 第二,混淆样本选择模型和处理效应模型。现阶段文献对样本选择模型和处理效应模型的实际操作主要有三种:heckmanetregress和手工两步法,其中heckman和手工两步法用的最多,etregress几乎没有。但是,正如前面所说的,样本选择模型由于数据缺陷在应用中不具有可操作性,因此heckman在多数文献中本意是解决自选择偏差,因此部分文献在heckman选择方程中设置被解释变量为D而非y_dummy就不足为奇了,但这样的做法是有问题的,除了模型使用的混淆,更重要的在于两种模型在前后两步中参与回归的样本数目是不同的,并且两种模型在计算IMR时使用的公式也不同,因此模型混用可能反而进一步导致估计偏误。此外,无论是heckman还是etregress,以及手工操作,两步估计法都不推荐使用,比较而言,MLE得出的结果更稳健。

5.2 经典论文解析

下面将解析两篇经典论文。考虑到多数文献本质上存在的是自选择偏差,而分析样本选择偏差并使用样本选择模型的(中文)文献并不多见,因此下面两篇论文均是从样本选择偏差角度来分析内生性问题。

第一篇论文陈云松(2012)发表在《社会》的《农民工收入与村庄网络 基于多重模型识别策略的因果效应分析》,研究主题是探讨社会网络对农民工在外务工收入的影响。

[8] 陈云松. 农民工收入与村庄网络 基于多重模型识别策略的因果效应分析[J]. 社会, 2012, 32(04): 68-92.

以下是基准回归方程:

W_{ig}=\beta _0+\beta _1S_g+\beta _2X_{ig}+\beta _3V_g+\varepsilon \tag{3}

其中,W_{ig}表示第g个村庄第i个农民工在城市务工的工资;S_g代表社会网络,用村庄在外务工的人数来表示,在论文中作为核心解释变量;X_{ig}表示个人层面的控制变量;V_g是村庄层面的控制变量。

文章怀疑农民工在外务工可能是一个选择行为,因为具有城市劳动力市场优势(男性、年轻和能力强等)的农民会更倾向于外出打工。论文进一步将这种选择性的来源分为可观测因素和不可观测因素,可观测因素包括年龄、性别等,不可观测因素包括性格、能力等。因此,在模型设置时必须要考虑样本群体是否随机和均质,即样本选择偏差问题。

在本例的数据集结构中,被解释变量W_{ig}存在缺失值,而由于不在外务工的农民本身就不具有在外务工的工资数据(即使他们有其他来源的收入,但不是文章研究的重点),因此这些缺失值存在的原因就是这些被调查的样本本身就不在外务工。而由于前面提到的农民是否在外务工可能是一个选择行为,即W_{ig}存在缺失值的样本与W_{ig}取值不为空的样本在某些特征因素方面本身就存在较大的差异,因此如果在回归时直接剔除这部分取值为空的样本,最后得到的结果就可能存在估计偏误,也就是说在考虑到样本选择偏差的情况下,基准回归结果可能就不再具有稳健性。

为了解决可能存在的样本选择偏差问题,作者使用了样本选择模型中的两步估计法(Heckit)。Heckit由以下方程组构成:

W_{ig}=\beta _0+\beta _1S_g+\beta _2X_{ig}+\beta _3V_g+\beta _4\hat P_{ig}+\varepsilon \tag{4}

P_{ig}=\gamma _0+\gamma _1F_{ig}+\gamma _2S_g+\gamma _3X_{ig}+\gamma _4V_g+\mu \tag{5}

其中,方程(5)是第一阶段回归方程(选择方程),方程(4)是第二阶段回归方程;\hat P_{ig}是逆米尔斯比率;P_{ig}代表样本是否外出务工的虚拟变量,即样本在外务工取值为1,否则为0;F_{ig}是选择方程中的外生解释变量,论文中选择的是家庭劳动力人数;方程(4)的所有解释变量,是方程(5)解释变量的严格子集(真子集)。

论文还对外生变量F_{ig}的相关性与外生性进行了说明,认为家庭劳动力数量对农民工的打工决策有着重要影响,而对在外务工收入的影响微乎其微,具体分析请看原文。

事实上,这里存在两个问题:

  • 第一,在选择方程中,作者使用logit模型进行回归,正如前文所述,logit模型不具备干扰项服从正态分布的假设,因此根据第一步回归拟合值计算出的IMR可能存在一定程度的偏误。
  • 第二,方程(4)和方程(5)\hat P_{ig}P_{ig}的界定不清晰,因为方程(4)中的\hat P_{ig}本意应该是IMR,而非字母本身所表达的“P_{ig}的拟合值”的含义,而IMR正是由“P_{ig}的拟合值”计算所得。

下表是基准OLS回归与Heckit第二步回归结果的对比,括号内为各变量估计系数的聚类稳健标准误,以村庄为聚类单位;Heckit的第一步回归结果论文并未列示,这里假定外生解释变量在第一步回归中显著且有效。

(1)
OLS
(2)
Heckit
社会网络 0.125***
(0.0349)
0.263***
(0.0760)
个体、村庄
控制变量
YES YES
IMR 0.754**
(0.3790)

可以观察到,Heckit第二步回归结果中IMR显著为正,且数值较大(相较于其他控制变量的估计系数而言,详细结果请看原文),这说明基准OLS回归确实存在样本选择偏差,造成估计偏误,具体来说是低估了社会网络对农民工在外务工收入的影响,因为OLS模型中社会网络的估计系数仅有0.125,而Heckit模型的估计系数(0.263)是其两倍还多,且两者均至少在1%的水平下显著。至于为什么社会网络的收入促进效应在Heckit模型中高于OLS,作者在原文中给出了解释。

值得一提的是,为了解决一般性的因遗漏变量和联立方程(互为因果)导致的估计偏误问题,作者在样本选择模型的基础上进一步采用工具变量法,即采用IV - Heckit对基准OLS的稳健性进行进一步的检验,详情请看原文。

第二篇论文祝树金和赵玉龙(2017)发表在《金融研究》的《资源错配与企业的出口行为——基于中国工业企业数据的经验研究》,主题是探讨企业资源错配对出口行为的影响。

[9] 祝树金, 赵玉龙. 资源错配与企业的出口行为——基于中国工业企业数据的经验研究[J]. 金融研究, 2017(11): 49-64.

论文一开始就考虑到了样本选择偏差问题,认为企业是否出口受制于自身条件,简单将出口企业与非出口企业同等对待将产生估计偏误,因此构建样本选择模型对这种偏误进行纠正。构建的两阶段模型如下:

exdum_{it}=\alpha _1miss_{it-1}+\sum _1^J\beta _jX_{j,it-1}+\delta_{it} \tag{6}

exshare_{it}=\alpha _2miss_{it-1}+\sum _1^J\beta _jZ_{j,it-1}+\varepsilon_{it} \tag{7}

公式(6)是第一阶段的企业出口选择方程,其中,被解释变量exdum_{it}代表第ti企业的出口状态,若有出口行为,该变量记为1,否则记为0;考虑到出口滞后效应,第一、二阶段所有解释变量均滞后一期;miss_{it-1}是论文的核心解释变量企业资源错配,分别使用企业资源错配指标miss1\tau k\tau l来表示;X_{j,it-1}是影响企业出口决策的第j个控制变量,包括一个外生解释变量exdum_{it-1},即企业前一期是否出口的虚拟变量,作者认为该变量满足相关性和外生性的要求,以及其他控制变量。

公式(7)是第二阶段的回归方程,其中,被解释变量exshare_{it}表示企业出口强度;Z_{j,it-1}表示影响企业出口强度的控制变量,这些控制变量包括第一阶段的所有控制变量(除exdum_{it-1}),以及一个根据第一阶段回归拟合值计算的IMR

回归结果汇总如下(限于篇幅限制,这里仅展示核心解释变量为miss1的回归结果;括号内为标准误,具体类型未告知):

(1)
exdum
(2)
exshare
miss1_{t-1} 0.012***
(0.0030)
0.008***
(0.0009)
exdum_{t-1} 2.791***
(0.0099)
控制变量 YES YES
行业、年份 YES YES
Wald~chi^2 11,949.25***(右同)
\rho -0.3858***(右同)
N 177,386 177,386

可以发现(Wald~chi^2\rho的那两列结果应该合并为一列,markdown表格合并比较麻烦~),第一步选择方程(模型(1))中,外生变量的估计系数显著为正,说明外生变量的选择有效;第二阶段回归(模型(2))中,核心解释变量的估计系数显著为正,说明在考虑样本选择偏差的情况下,企业资源错配仍对企业出口强度产生促进作用。需要注意的是:

  • 模型(1)和模型(2)引入行业虚拟变量和年份虚拟变量,并在结果汇报中称之为行业(效应)和年份(效应),而非行业固定效应与年份固定效应,这种做法是比较严谨的,因为第一阶段的probit回归不能使用固定效应模型。
  • 模型(1)和模型(2)使用的样本数是不同的,模型(1)使用的样本数应该多于模型(2)。然而,结果显示两步回归均使用了177,386个样本,因此猜测论文中的样本选择模型是使用MLE方法进行估计的,因为MLE从模型整体角度进行参数估计,参与回归的样本一般汇报为样本总数。
  • 模型(2)没有汇报IMR的估计系数,而仅仅汇报两步回归方程干扰项之间的相关系数\rho,因此可以基本断定该样本选择模型就是使用MLE方法进行估计的。\rho在1%的水平下显著为负,说明模型中存在的样本选择偏差不能忽视。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,319评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,801评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,567评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,156评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,019评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,090评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,500评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,192评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,474评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,566评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,338评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,212评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,572评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,890评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,169评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,478评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,661评论 2 335

推荐阅读更多精彩内容