第11章二元因变量回归

本章研究的二元因变量是因变量取值有限，也就是受限因变量（limited dependent variable）的情形

一、二元因变量和线性概率模型

应用于二元因变量的多元线性回归模型称为线性概率模型（linear probability model）

由于因变量 $Y$ 是二元的，因此总体回归函数对应于给定 $X$ 时因变量等于1的概率，而回归变量 $X$ 的系数 $\beta_1$ 表示 $X$ 变化一个单位引起的 $Y=1$ 的概率变化

缺点：

使线性模型易于使用的线性关系同时也是该模型的主要缺点，即估计的 $Y=1$ 的概率可能会小于0或大于1

二、probit和logit回归

1.probit回归

probit回归模型： $Pr(Y=1|X)=\Phi(\beta_0+\beta_1X)$ ，其中 $\Phi$ 为累积标准正态分布函数

2.logit回归

logit回归模型： $Pr(Y=1|X)=F(\beta_0+\beta_1X)=\frac{1}{1+\exp\{-(\beta_0+\beta_1X)\}}$

3.对比

线性概率、probit和logit这三个模型都是未知总体回归函数 $\mathbb{E}(Y|X)=Pr(Y=1|X)$ 的近似。其中线性概率模型最容易使用也最容易解释，但它无法”抓住“真是总体回归函数的非线性性质；而probit和logit回归模型能模拟概率中的非线性，但它们的回归系数较难解释。

三、logit和probit模型的估计和推断

1.非线性最小二乘估计

使下列预测误差平方和达到最小： $\sum_{i=1}^n[Y_i-Pr(Y_i=1|X_i)]^2$

非线性最小二乘估计量具有两个重要性质，即一致性和大样本下服从正态分布；但存在其他比非线性最小二乘估计量方差小的估计量，即非线性最小二乘估计量不随有效的

2.最大似然估计

似然函数（likelihood function）是数据的联合概率分布，被视为未知系数的函数；而未知系数的最大似然估计量（maximum likelihood estimator，MLE）是由使似然函数最大化的系数取值组成的

记 $n$ 个i.i.d观测的似然函数为： $f(p;Y)=p^{\sum Y_i}(1-p)^{n-\sum Y_i}$ ，且 $\hat{p}=\overline{Y}$

3.拟合优度

二元因变量模型拟合状况的两种度量是“正确预测的比例”和“伪 $R^2$ ”

正确预测的比例（fraction correctly predicted）采用50%准则

伪 $R^2$ （pseudo- $R^2$ ）度量了基于似然函数的模型拟合状况

四、其他受限因变量模型

1.删失和截断回归模型

tobit模型，即删失回归模型（censored regression model）的一例

2.样本选择模型

截断回归模型（truncated regression model）适用于只有当因变量大于或小于某个临界值的观测数据不可得时的回归模型

3.计数数据

计数数据（count data）因变量为计数数字，使用最广泛的是Poisson回归模型和负二项（negative binomial）回归模型

4.有序因变量

有序因变量数据（ordered response data）互斥的但有自然排序的定性数据

5.离散选择数据

离散数据（discrete choice）或多项选择（multiple choice）变量可取多个无序定性值

第11章 二元因变量回归