高级计量经济学 14:二值选择模型(基础)

高级计量经济学 14:二值选择模型(基础)

为了个人课题的进展,我会按照进度选择自己需要优先学习的内容😂不按照正常顺序的话不好意思啦!

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分(包括证明和正文)做了修改。

仅供学习参考,请勿转载,侵删!


目录

  • 11 二值选择模型
    • 11.1 散被解释变量的例子
    • 11.2 二值选择模型
      • 11.2.1 Probit 模型和 Logit 模型
      • 11.2.2 经济意义
      • 11.2.3 拟合优度
      • 11.2.4 统计推断

\S \text{ 第 11 章 } \S

\text{二值选择模型}


11.1 离散被解释变量的例子

如果解释变量是离散的(比如,虚拟变量),这并不影响回归。但有时候被解释变量是离散的,而非连续的,这就让人很头疼了。

  • 二值选择(binary choices):考研或者不考研、出国或者不出国、回国或者不回国……
  • 多值选择(multiple choices):走路、汽车,还是坐车;出国、考研还是就业……

这类模型被称为离散选择模型(discrete choice model)或定性反应模型(qualitative response model)。另外,有时被解释变量只能取非负整数,比如企业在某个时间内所获得的专利数,这类数据被称为计数数据(count data),其被解释变量也是离散的。

考虑到离散被解释变量的特点,通常不宜使用OLS进行回归


11.2 二值选择模型

11.2.1 Probit 模型和 Logit 模型

假设个体只有两种选择,比如 y=1(考研)y=0(不考研) 。是否考研,取决于毕业生毕业后的预期收入、个人兴趣等等,假设这些解释变量都被集成在向量 \boldsymbol x 中。于是,最简单的模型为线性概率模型(Linear Probability Model,LPM):
y_i = \boldsymbol x_i^\prime \boldsymbol\beta+\varepsilon_i,\quad i=1,\cdots,n
\boldsymbol\beta 的一致估计要求 {\rm Cov}(\boldsymbol x_i, \varepsilon_i)=0 (没有内生性)。然而,这里有几个问题:

  • 由于 \varepsilon_i = y_i-\boldsymbol x_i^\prime \boldsymbol\beta ,于是 \varepsilon_i = 1-\boldsymbol x_i^\prime \boldsymbol\beta\varepsilon_i = 0-\boldsymbol x_i^\prime \boldsymbol\beta 。所以 {\rm Cov}(\boldsymbol x_i, \varepsilon_i) 必然不为0
  • 显然, \boldsymbol x_i 服从两点分布,而非正态分布
  • 由于 {\rm Var}(\varepsilon_i) = {\rm Var}(\boldsymbol x_i^\prime \boldsymbol\beta)\boldsymbol x_i^\prime 有关,所以必然存在异方差(所以在检验的时候需要使用稳健的标准误,见教材第 7 章)
  • 尽管我们知道 y 非 1 即 0 ,但回归的时候总不可能这么巧 \hat y 就是 1 或 0 的,看图11.1

尽管 LPM 有上面所提到的各种缺点,但它的优点是计算方便,而且容易分析经济意义。于是,为了使 y 的预测值总是介于 y\in[0,1] 之间,我们对 LPM 进行拓展:在给定 \boldsymbol x 的情况下,考虑 y 的两点分布概率为:
\left\{\begin{array}{l} \mathrm{P}(y=1 | \boldsymbol{x})=F(\boldsymbol{x}, \boldsymbol{\beta}) \\ \mathrm{P}(y=0 | \boldsymbol{x})=1-F(\boldsymbol{x}, \boldsymbol{\beta}) \end{array}\right.
于是,函数 F(\boldsymbol{x}, \boldsymbol{\beta}) 就被称为连接函数(link function),因为它将解释变量 \boldsymbol x 与被解释变量 y 链接起来。由于 y 的取值要么为 0 ,要么为 1 ,于是 y 一定服从两点分布

连接函数的选择有一定的灵活性,通过选择合适的连接函数 F(\boldsymbol{x}, \boldsymbol{\beta}) 可以保证 \hat y\in[0,1] ,并将 \hat y 理解为 “ y=1 发生的概率”,因为:
\mathrm{E}(y | \boldsymbol{x})=1 \cdot \mathrm{P}(y=1 | \boldsymbol{x})+0 \cdot \mathrm{P}(y=0 | \boldsymbol{x})=\mathrm{P}(y=1 | \boldsymbol{x})
特别地,如果 F(\boldsymbol{x}, \boldsymbol{\beta}) 是标准的正态分布累计函数(cdf),则:
\mathrm{P}(y=1 |\boldsymbol x)=F(\boldsymbol x, \boldsymbol\beta)=\Phi\left(\boldsymbol x^{\prime}\boldsymbol \beta\right)=\int_{-\infty}^{\boldsymbol x^{\prime} \boldsymbol\beta} \phi(t) \mathrm{d} t
那么这个模型就被称为Probit模型。如果 F(\boldsymbol{x}, \boldsymbol{\beta})逻辑分布(logistic distribution)的 cdf ,即:
P(y=1 | \boldsymbol x)=F(\boldsymbol x, \boldsymbol\beta)=\Lambda\left(\boldsymbol x^{\prime} \boldsymbol\beta\right) \equiv \frac{\exp \left(\boldsymbol x^{\prime} \boldsymbol\beta\right)}{1+\exp \left(\boldsymbol x^{\prime} \boldsymbol\beta\right)}
那么这个模型就被称为Logit模型

逻辑分布的 cdf 与标准正态分布的 cdf 比较相似,更接近自由度为 7 的 t 分布

由于逻辑分布函数有解析表达式,而正态分布则没有,所以计算 Logit 模型通常比计算 Probit 模型更为方便。显然,这是一个非线性模型,可以用最大似然法估计(MLE)。以 Logit 模型为例,第 i 个观测数据的概率密度为:
f\left(y_{i} | \boldsymbol{x}_{i}, \boldsymbol{\beta}\right)=\left\{\begin{array}{l} \Lambda\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}\right), \text { 若 } y_{i}=1 \\ 1-\Lambda\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}\right), \text { 若 } y_{i}=0 \end{array}\right.
可以不分段地写成:
f\left(y_{i} | \boldsymbol{x}_{i}, \boldsymbol{\beta}\right)=\left[\Lambda\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}\right)\right]^{y_{i}}\left[1-\Lambda\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}\right)\right]^{1-y_{i}}
去对数,有:
\ln f\left(y_{i} | \boldsymbol{x}_{i}, \boldsymbol{\beta}\right)=y_{i} \ln \left[\Lambda\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}\right)\right]+\left(1-y_{i}\right) \ln \left[1-\Lambda\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}\right)\right]
假设样本中的个体相互独立,那么整个样本的 LLF (对数似然函数)为:
\ln L(\boldsymbol{\beta} | \boldsymbol{y}, \boldsymbol{x})=\sum_{i=1}^{n} y_{i} \ln \left[\Lambda\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}\right)\right]+\sum_{i=1}^{n}\left(1-y_{i}\right) \ln \left[1-\Lambda\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}\right)\right]
可以用数值方法求解这个非线性最大化问题。


11.2.2 经济意义

需要注意的是,在这个非线性模型中,估计量 \hat{\boldsymbol \beta}_{MLE} 并非边际效应(marginal effects)。以 Probit 为例,可以计算:
\frac{\partial \mathrm{P}(y=1 | \boldsymbol{x})}{\partial x_{k}}=\frac{\partial \mathrm{P}(y=1 | \boldsymbol{x})}{\partial\left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right)} \cdot \frac{\partial\left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right)}{\partial x_{k}}=\phi\left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right) \cdot \beta_{k}
在这里使用了微分的链式法则(chain rule),并假设了 x_k 为连续变量。由于 Probit 和 Logit 所使用的分布函数不同,所以其参数并不可以直接比较,而是需要分别计算二者的边际效应,然后进行比较。然而,对于非线性模型而言,边际效应本身就不是常数,它随解释变量的变化而变化。常用的边际效应的概念有:

  • 平均边际效应(average marginal effect),分别计算每个样本的边际效应然后平均
  • 样本均值处的边际效应(marginal effect at mean),即在 \boldsymbol x = \bar{\boldsymbol x} 处的边际效应
  • 在某个代表值处的边际效应(marginal effect at a representative value),求特点的边际效应

以上三种边际效应的计算结果可能会有差异。传统上,计算样本均值处的边际效应比较简单;然而,在非线性模型中,样本均值处的个体行为通常不能代表个体的平均行为(average behavior of individuals differes from behavior of the average individual)。对于政策分析而言,平均边际效应比较有意义,也是 Stata 的默认方法

既然 \hat{\boldsymbol \beta}_{MLE} 并非边际效应,那他有什么经济意义呢?对于 Logit 模型,令 p \equiv \mathrm{P}(y=1 | x) ,那么 1-p=\mathrm{P}(y=0 | x) ,由于 p=\frac{\exp \left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right)}{1+\exp \left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right)} ,于是:
\begin{split} \frac{p}{1-p}&=\exp \left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right) \\ \ln \left(\frac{p}{1-p}\right)&=\boldsymbol{x}^{\prime} \boldsymbol{\beta} \end{split}
其中,\frac{p}{1-p} 被称为 几率比(odds ratio)或相对风险(relative risk)。如果几率比为2,意味着 y=1 的概率是 y=0 两倍。对第二个等式的右边求导,我们可以发现 \hat{\boldsymbol \beta}_{MLE} 的意义是:若 x_j 增加一个微小的量,那么几率比的百分比则会增加 \hat{ \beta}_{j} 。所以,可以把 \hat{ \beta}_{j} 视为半弹性,即 x_j 增加一个单位引起几率比的百分比的变化。

例如, \hat{ \beta}=0.12 表示 x_j+1 会引起几率比增加 12\% 。注意不是几率比本身变大 0.12,而是它增长了 12%

还有另外一个生物统计领域特别喜欢使用的意义,考虑 x_j+1 从而 p 变成了 p^\star ,于是新几率比与原先几率比的比率可以写成:
\frac{\frac{p^{*}}{1-p^{*}}}{\frac{p}{1-p}}=\frac{\exp \left[\beta_{1}+\beta_{2} x_{2}+\cdots+\beta_{j}\left(x_{j}+1\right)+\cdots+\beta_{K} x_{K}\right]}{\exp \left(\beta_{1}+\beta_{2} x_{2}+\cdots+\beta_{j} x_{j}+\cdots+\beta_{K} x_{K}\right)}=\exp \left(\beta_{j}\right)
所以,\exp \left(\hat\beta_{j}\right) 表示 x_j+1 引起的几率比的变化倍数

例如, \exp \left(\hat\beta_{j}\right)=1.12 表示 x_j+1 会引起几率比变成原先的 1.12 倍,即增加了 13%

事实上,如果 \hat{ \beta} 比较小,两者方法是等价的( Taylor 展开)。然而,如果 x_j 必须变化一个单位(如性别、婚否),则应使用 \exp \left(\hat\beta_{j}\right) 。另外,Probit 模型无法对系数 \hat{\boldsymbol\beta}_{MLE} 进行类似的解释,这是 Probit 模型的劣势。


11.2.3 拟合优度

如何衡量一个非线性的模型的拟合优度呢?在不存在平方和分解公式的情况下,R^2 是无法计算的,然而 Stata 依然汇报一个准R2(Pseudo R^2),由 McFadden (1974) 提出,其定义为:
\text { 准 } R^{2}=\frac{\ln L_{0}-\ln L_{1}}{\ln L_{0}}
其中,\ln L_1 为原模型的 LLF 最大值,而 \ln L_0以常数项为唯一解释变量的 LLF 的最大值。由于 y 是离散的两点分布,似然函数 LF 的最大可能值为 1,于是 LLF 的最大可能值为 0,记为 \ln L_{m ax} 。于是,必然有 0 \geqslant \ln L_{1} \geqslant \ln L_{0} ,于是 0 \leqslant \text { 准 } R^{2} \leqslant 1

另外一类判断拟合优度的方法是计算正确预测的百分比,实际上我认为目前机器学习领域的一系列常用的拟合优度如 MSE、MAPE 等都可以使用。


11.2.4 统计推断

本节主要是复习 高级计量12 高级计量13 的内容

总的来说,要对 Probit 和 Logit 模型进行统计推断,需要作如下假设:

  • 标准的 Probit 和 Logit 模型假设扰动项为同方差(这一点与线性模型类似):以此才可以写出似然函数 LF

  • 假设样本为 i.i.d. :这样才可以使用大数定律和中心极限定理

  • 如果满足似然函数正确或满足 {\rm E}(y|\boldsymbol x) = F(\boldsymbol x,\boldsymbol\beta) (后面的条件更弱),则可以使用普通标准误;否则应该使用稳健的标准误

下面我们对两种检验:对所有系数的联合检验单个系数的独立检验进行说明

(1) 所有系数的联合显著性

在使用 Stata 时,会汇报一个 LR 检验统计量,检验常数以外的所有其他系数的显著性(即所有系数的联合显著性)。在高级计量13,我们已经推导出对 MLE 的系数的 LR 统计推断表达式:
\mathrm{LR} \equiv-2 \ln \left[\frac{L\left(\hat{\boldsymbol{\beta}}_{R}\right)}{L\left(\hat{\boldsymbol{\beta}}_{U}\right)}\right]=2\left[\ln L\left(\hat{\boldsymbol{\beta}}_{U}\right)-\ln L\left(\hat{\boldsymbol{\beta}}_{R}\right)\right] \stackrel{d}{\longrightarrow} \chi^{2}(K)
上面的统计推断表达式仅依赖于 样本 i.i.d.似然函数正确这两个条件,前者是为了应用大数定律中心极限定理,后者是为了使用信息矩阵等式

对于 Probit 和 Logit 模型,如果分布函数设定不正确,则为准最大似然估计(QMLE),那么我们要注意:

  • 如果 {\rm E}(y|\boldsymbol x) = F(\boldsymbol x,\boldsymbol\beta) 成立:由于二值选择模型的分布必然为两点分布(属于线性指数分布族),于是 MLE 估计仍然是一致的。另外,由于两点分布的特殊性,那么在 i.i.d. 的情况下,稳健标准误就等于 MLE 的普通标准误(在推导 LR 统计量时需要用到有关标准误的等式)。所以,如果认为模型设定正确,则没有必要使用稳健的标准误。

  • 如果 {\rm E}(y|\boldsymbol x) \ne F(\boldsymbol x,\boldsymbol\beta) ,则 Probity 与 Logit 模型并不能得到对系数 \boldsymbol\beta 的一致估计。在此时,是否使用稳健的标准误就不是你要关心的问题——你应该首先解决参数估计的一致性问题。

  • 如果普通标准误与稳健标准误相去甚远,则大致可以断定模型设定不正确

  • 如果数据非 i.i.d. ,那么可以将样本分为若干组(聚类),而每组组内的个体存在组内自相关,则应该使用聚类文件的标准误

(2) 单个系数的显著性

在使用 Stata 时,也会汇报每个系数的 Std. err. 。如果要对单个系数的显著性进行推断,则需要使用高级计量12的 6.5.2 节中的推导:

a. 在抽取的样本为 i.i.d. 的假设下,我们用大数定律中心极限定理可以推导出:
\sqrt{n}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}-\boldsymbol{\theta}_{0}\right) \stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \boldsymbol{A}_{0}^{-1} \boldsymbol{B}_{0} \boldsymbol{A}_{0}^{-1}\right)
b. 在分布函数设定正确的假设下(于是可是使用高级计量11证明3),可以进一步推导出:
\sqrt{n}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}-\boldsymbol{\theta}_{0}\right) \stackrel{d}{\longrightarrow} N\left(\boldsymbol{0}, n\left[\boldsymbol{I}\left(\boldsymbol{\theta}_{0}\right)\right]^{-1}\right) ,\quad \boldsymbol I(\boldsymbol \theta_0) \equiv -{\rm E}\left[ \frac{\partial^2 \ln L(\boldsymbol\theta_0;\boldsymbol y)}{\partial \boldsymbol\theta^\prime_0\partial\boldsymbol\theta_0} \right]
前面已经提到,就算分布函数设定不正确,如果 {\rm E}(y|\boldsymbol x) = F(\boldsymbol x,\boldsymbol\beta) 成立,那么在 i.i.d. 的情况下,稳健标准误就等于 MLE 的普通标准误。所以上面的等式只要 {\rm E}(y|\boldsymbol x) = F(\boldsymbol x,\boldsymbol\beta) 成立就可以用了。

c. 如果 {\rm E}(y|\boldsymbol x) \ne F(\boldsymbol x,\boldsymbol\beta) ,则 Probit 与 Logit 模型并不能得到对系数 \boldsymbol\beta 的一致估计。此时统计推断并无意义。

欲从上面的式子单个系数进行检验,显然需要未知的真实参数 \boldsymbol \theta_0 。于是我们可以根据高级计量12的 6.6 的方法去处理,这里就不再赘述了。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343