高级计量经济学 14:二值选择模型(基础)
为了个人课题的进展,我会按照进度选择自己需要优先学习的内容😂不按照正常顺序的话不好意思啦!
此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。
我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分(包括证明和正文)做了修改。
仅供学习参考,请勿转载,侵删!
目录
-
11 二值选择模型
- 11.1 散被解释变量的例子
-
11.2 二值选择模型
- 11.2.1 Probit 模型和 Logit 模型
- 11.2.2 经济意义
- 11.2.3 拟合优度
- 11.2.4 统计推断
11.1 离散被解释变量的例子
如果解释变量是离散的(比如,虚拟变量),这并不影响回归。但有时候被解释变量是离散的,而非连续的,这就让人很头疼了。
- 二值选择(binary choices):考研或者不考研、出国或者不出国、回国或者不回国……
- 多值选择(multiple choices):走路、汽车,还是坐车;出国、考研还是就业……
这类模型被称为离散选择模型
(discrete choice model)或定性反应模型
(qualitative response model)。另外,有时被解释变量只能取非负整数,比如企业在某个时间内所获得的专利数,这类数据被称为计数数据
(count data),其被解释变量也是离散的。
考虑到离散被解释变量的特点,通常不宜使用OLS进行回归
11.2 二值选择模型
11.2.1 Probit 模型和 Logit 模型
假设个体只有两种选择,比如 和 。是否考研,取决于毕业生毕业后的预期收入、个人兴趣等等,假设这些解释变量都被集成在向量 中。于是,最简单的模型为线性概率模型
(Linear Probability Model,LPM):
对 的一致估计要求 (没有内生性)。然而,这里有几个问题:
- 由于 ,于是 或 。所以 必然不为0
- 显然, 服从两点分布,而非正态分布
- 由于 与 有关,所以必然存在异方差(所以在检验的时候需要使用稳健的标准误,见教材第 7 章)
- 尽管我们知道 非 1 即 0 ,但回归的时候总不可能这么巧 就是 1 或 0 的,看
图11.1
尽管 LPM 有上面所提到的各种缺点,但它的优点是计算方便,而且容易分析经济意义。于是,为了使 的预测值总是介于 之间,我们对 LPM 进行拓展:在给定 的情况下,考虑 的两点分布概率为:
于是,函数 就被称为连接函数
(link function),因为它将解释变量 与被解释变量 链接起来。由于 的取值要么为 0 ,要么为 1 ,于是 一定服从两点分布。
连接函数的选择有一定的灵活性,通过选择合适的连接函数 可以保证 ,并将 理解为 “ 发生的概率”,因为:
特别地,如果 是标准的正态分布累计函数(cdf),则:
那么这个模型就被称为Probit模型
。如果 是逻辑分布
(logistic distribution)的 cdf ,即:
那么这个模型就被称为Logit模型
。
逻辑分布的 cdf 与标准正态分布的 cdf 比较相似,更接近自由度为 7 的 分布
由于逻辑分布函数有解析表达式,而正态分布则没有,所以计算 Logit 模型通常比计算 Probit 模型更为方便。显然,这是一个非线性模型,可以用最大似然法估计(MLE)。以 Logit 模型为例,第 个观测数据的概率密度为:
可以不分段地写成:
去对数,有:
假设样本中的个体相互独立,那么整个样本的 LLF (对数似然函数)为:
可以用数值方法求解这个非线性最大化问题。
11.2.2 经济意义
需要注意的是,在这个非线性模型中,估计量 并非边际效应(marginal effects)。以 Probit 为例,可以计算:
在这里使用了微分的链式法则(chain rule),并假设了 为连续变量。由于 Probit 和 Logit 所使用的分布函数不同,所以其参数并不可以直接比较,而是需要分别计算二者的边际效应,然后进行比较。然而,对于非线性模型而言,边际效应本身就不是常数,它随解释变量的变化而变化。常用的边际效应的概念有:
- 平均边际效应(average marginal effect),分别计算每个样本的边际效应然后平均
- 样本均值处的边际效应(marginal effect at mean),即在 处的边际效应
- 在某个代表值处的边际效应(marginal effect at a representative value),求特点的边际效应
以上三种边际效应的计算结果可能会有差异。传统上,计算样本均值处的边际效应比较简单;然而,在非线性模型中,样本均值处的个体行为通常不能代表个体的平均行为(average behavior of individuals differes from behavior of the average individual)。对于政策分析而言,平均边际效应比较有意义,也是 Stata 的默认方法。
既然 并非边际效应,那他有什么经济意义呢?对于 Logit 模型,令 ,那么 ,由于 ,于是:
其中, 被称为 几率比
(odds ratio)或相对风险
(relative risk)。如果几率比为2,意味着 的概率是 两倍。对第二个等式的右边求导,我们可以发现 的意义是:若 增加一个微小的量,那么几率比的百分比则会增加 。所以,可以把 视为半弹性
,即 增加一个单位引起几率比的百分比的变化。
例如, 表示 会引起几率比增加 。注意不是几率比本身变大 0.12,而是它增长了 12%
还有另外一个生物统计领域特别喜欢使用的意义,考虑 从而 变成了 ,于是新几率比与原先几率比的比率可以写成:
所以, 表示 引起的几率比的变化倍数。
例如, 表示 会引起几率比变成原先的 1.12 倍,即增加了 13%
事实上,如果 比较小,两者方法是等价的( Taylor 展开)。然而,如果 必须变化一个单位(如性别、婚否),则应使用 。另外,Probit 模型无法对系数 进行类似的解释,这是 Probit 模型的劣势。
11.2.3 拟合优度
如何衡量一个非线性的模型的拟合优度呢?在不存在平方和分解公式的情况下, 是无法计算的,然而 Stata 依然汇报一个准R2
(Pseudo ),由 McFadden (1974) 提出,其定义为:
其中, 为原模型的 LLF 最大值,而 为以常数项为唯一解释变量的 LLF 的最大值。由于 是离散的两点分布,似然函数 LF 的最大可能值为 1,于是 LLF 的最大可能值为 0,记为 。于是,必然有 ,于是 。
另外一类判断拟合优度的方法是计算正确预测的百分比
,实际上我认为目前机器学习领域的一系列常用的拟合优度如 MSE、MAPE 等都可以使用。
11.2.4 统计推断
本节主要是复习 高级计量12
和 高级计量13
的内容。
总的来说,要对 Probit 和 Logit 模型进行统计推断,需要作如下假设:
标准的 Probit 和 Logit 模型假设扰动项为同方差(这一点与线性模型类似):以此才可以写出似然函数 LF
假设样本为 i.i.d. :这样才可以使用大数定律和中心极限定理
如果满足似然函数正确或满足 (后面的条件更弱),则可以使用普通标准误;否则应该使用稳健的标准误
下面我们对两种检验:对所有系数的联合检验和单个系数的独立检验进行说明
(1) 所有系数的联合显著性
在使用 Stata 时,会汇报一个 LR 检验统计量,检验常数以外的所有其他系数的显著性(即所有系数的联合显著性)。在高级计量13
,我们已经推导出对 MLE 的系数的 LR 统计推断表达式:
上面的统计推断表达式仅依赖于 样本 i.i.d.
和似然函数正确
这两个条件,前者是为了应用大数定律和中心极限定理,后者是为了使用信息矩阵等式。
对于 Probit 和 Logit 模型,如果分布函数设定不正确,则为准最大似然估计(QMLE),那么我们要注意:
如果 成立:由于二值选择模型的分布必然为两点分布(属于线性指数分布族),于是 MLE 估计仍然是一致的。另外,由于两点分布的特殊性,那么在 i.i.d. 的情况下,稳健标准误就等于 MLE 的普通标准误(在推导 LR 统计量时需要用到有关标准误的等式)。所以,如果认为模型设定正确,则没有必要使用稳健的标准误。
如果 ,则 Probity 与 Logit 模型并不能得到对系数 的一致估计。在此时,是否使用稳健的标准误就不是你要关心的问题——你应该首先解决参数估计的一致性问题。
如果普通标准误与稳健标准误相去甚远,则大致可以断定模型设定不正确
如果数据非 i.i.d. ,那么可以将样本分为若干组(聚类),而每组组内的个体存在组内自相关,则应该使用聚类文件的标准误
(2) 单个系数的显著性
在使用 Stata 时,也会汇报每个系数的 Std. err. 。如果要对单个系数的显著性进行推断,则需要使用高级计量12
的 6.5.2 节中的推导:
a. 在抽取的样本为 i.i.d. 的假设下,我们用大数定律和中心极限定理可以推导出:
b. 在分布函数设定正确的假设下(于是可是使用高级计量11
的证明3),可以进一步推导出:
前面已经提到,就算分布函数设定不正确,如果 成立,那么在 i.i.d. 的情况下,稳健标准误就等于 MLE 的普通标准误。所以上面的等式只要 成立就可以用了。
c. 如果 ,则 Probit 与 Logit 模型并不能得到对系数 的一致估计。此时统计推断并无意义。
欲从上面的式子单个系数进行检验,显然需要未知的真实参数 。于是我们可以根据高级计量12
的 6.6 的方法去处理,这里就不再赘述了。