> # 何时可以使用线性概率模型?
**Source:** [When Can You Fit a Linear Probability Model? More Often Than You Think](https://statisticalhorizons.com/when-can-you-fit)
2015 年 7 月,PAUL VON HIPPEL 提出了一些线性概率模型相对于 Logistic 模型的优势。他认为,相比其他逻辑模型来说,线性模型更易于解释并且运行的更快,这对于处理数据集较大或复杂模型时就显得尤为重要。此外,线性概率模型通常与 Logistic 模型一样适用,因为在某些范围内概率 p 几乎与 logistic 回归中使用的对数概率函数 ln(p(1-p))线性相关。
以经验来看,他建议线性概率模型可以用于概率范围在.20和.80之间的模型。因为在此范围内,概率和对数概率几乎是线性相关的(如图1所示)。Long(1997)也曾给出过类似合理的建议,但显然线性概率模型实际可行的应用范围比这更广。
![图1](https://gitee.com/uploads/images/2019/0505/182009_7085616f_4951365.jpeg "The relationship between probability and log odds over the range of probabilities from .2 to .8")
例如,在 Joe Workman 和 Paul Von Hippel 发表的一篇新的论文中,他们应用多水平模型来研究幼儿园到二年级美国儿童肥胖情况发现:该年龄段的儿童肥胖可能性从0.09增加到了0.13。但由于这些概率小于0.20,你可能会猜测不能使用线性概率模型。但他们做到了并且线性模型还运行得很快,而 logistic 模型在多水平环境中反而运行的很慢。此外,线性模型也对结果给出了很好的解释;例如,作者在论文中写道“儿童肥胖的概率在夏天会每月增加大约1个百分点[^1]。” 并且我们在模型拟合方面也没有任何损失;线性模型实际上是和 logistic 模型适用范围是一样的,因为在在0.09到0.13的概率范围内,概率几乎与其对数概率成线性关系(如图2所示)。
![图2](https://gitee.com/uploads/images/2019/0505/230153_7ab19ebf_4951365.jpeg "The relationship between probability and log odds over the range of probabilities from .09 to .13.")
最基本的观点是,只要概率和其对数概率的关系在模型应用的概率范围内是近似线性的,那么就可以使用线性概率模型。在0.2到0.8之间的概率只是使得近似线性关系可以成立的其中一个范围,有时也某些小于0.2或大于0.8的狭窄范围也是适用线性概率模型的。
当概率与对数概率之间的关系是非线性时,仍然存在线性概率模型可行的情况。例如,如果你的回归量x是分类变量,那么你其实并不是在为一个连续的概率函数建模。相反,你正在建模的是与X相关的其他类别离散概率,这可以用线性模型和 Logistic 模型来实现,尤其是模型中包含X变量的交互项时( Angrist & Pischke, 2008, chapter 3; Pischke, 2012 )。
但是我不认为线性概率模型总是可行的。有时我的确使用 Logistic 模型。例如,通过查看来自 Belmont Stakes 30 年来的赛马数据,我发现爱马受惊被扰乱的概率与开始比赛时参赛马的数量密切相关。开始时参赛的马越多,其中一匹就越有可能干扰爱马的可能性就越大(如图3所示)。
![图3](https://gitee.com/uploads/images/2019/0505/234147_0db9ec25_4951365.jpeg "The relationship between the number of horses starting the Belmont Stakes and the probability that the favorite will be upset.")
在概率数量级上,这种关系是强非线性的。这种强非线性关系几乎概率涵盖了从0到1的整个范围。所以线性概率模型不能很容易地拟合这些数据。当作者出于好奇尝试着用线性模型时发现,某些模型的概率超出了上界1。我可以通过找到x变量的某种非线性变换来改进线性模型的拟合程度。但是找到正确的变换并不容易,而且即使找到了它,线性模型的易解释性也会丧失。相比之下拟合一个本身就可以保持概率有界的 Logistic 模型更简单。
为了检验数据是否适用于线性概率模型的一个基本诊断方法就是,在数据可行的概率范围内绘制概率和对数概率之间的关系。如果关系如图1和图2所示是接近线性的,那么线性概率模型将与 Logistic 模型一样适用,并且线性模型可以运行的更快且更易于解释结果。但是如果关系呈现如图3所示很强的非线性的,那么线性模型可能不适合,除非变量 X 是离散的分类变量。
概率与对数概率的关系很容易通过各种软件绘制出来。例如,在 Stata 中可以通过如下所示的命令绘制除图1所示的关系图:
``` stata
twoway function y=ln(x/(1-x)), range(.2 .8) xtitle(“Probability”) ytitle(“Log odds”)
```
同样的,我使用相同的命令绘制出图2,只将范围更改为(.09.13)如下:
``` stata
twoway function y=ln(x/(1-x)), range(.09.13) xtitle(“Probability”) ytitle(“Log odds”)
```
在某些情况下,概率和其对数概率函数之间的关系只是轻微的非线性并非强非线性。那么你将面临一个权衡取舍,实际上你对模型的选择将取决于你设定的研究目标。如果你主要想要的是对关系的大致清晰的概括,那么你可能愿意容忍一些错误,并使用一个快速运行的线性模型从而给出易于解释的系数。但是如果你想要获得一个准确的概率,那么你可能愿意牺牲模型运行时间和系数的可解释性来获得一个更好的概率估计。例如,作者 Paul Von Hippel 开发了一个金融风险模型来预测交易欺诈或借款人违约的发生可能性。在这种情况下系数就不是考虑的焦点,而是需要模型为单个交易或借款人分配一个准确的违约概率。而线性模型在风险控制模型涵盖的概率范围内的表现通常很差。那么 Logistic 模型就自然是一个更好的选择,尽管我们也会使用如,神经网络或决策树这类其他非线性模型。
> ## 参考文献
1.Angrist, J. D., & Pischke, J.-S. (2008). Mostly Harmless Econometrics: An Empiricist’s Companion (1st ed.). Princeton University Press.
2.Long, J. S. (1997). Regression Models for Categorical and Limited Dependent Variables (1st ed.). Sage Publications, Inc.
3.Pischke, J.-S. (2012, July 9). Probit better than LPM? Retrieved from http://www.mostlyharmlesseconometrics.com/2012/07/probit-better-than-lpm/
4.von Hippel, P.T. & Workman, J. (2016). From Kindergarten Through Second Grade, U.S. Children’s Obesity Prevalence Grows Only During Summer Vacations. Obesity Volume 24, Issue 11, pages 2296–2300. http://onlinelibrary.wiley.com/doi/10.1002/oby.21613/full
[^1]: von Hippel, Paul T., and Joseph Workman. "From kindergarten through second grade, US children's obesity prevalence grows only during summer vacations." Obesity 24.11 (2016): 2296-2300.