回归分析诊断、统计检验、绘图及模型解释

下面对回归分析的检验、统计诊断、检验绘图以及模型的解释方法进行实践性的总结。内容涉及对概念的理解、检验方法等。其中模型检验和诊断稍有重复,内容略混乱。检验方法多采用Python中的statmodels模块。

关于回归分析的一些统计检验

进行回归分析时,我将其归结为主要进行以下6个方面的检验,具体检验过程和方法不一而足。

1. 综合性检验
解释:采用模型F统计量的P值判断整个模型是否是显著的。

2. 线性检验
解释:可以采用Rainbow test,零假设是变量之间的关系是线性的,P-值不显著则说明是线性的;若P值非常小则说明不满足线性假设。

方法1:可以采用sm.stats.linear_rainbow(res_model),返回值第一个是F-statistic ,第二个是p-value。

方法2:若因变量与自变量线性相关,那么残差值与预测值就没有任何系统关联。绘制变量的成分残差图,如果两条线(直线和拟合曲线)接近,说明可以进行线性拟合,即模型是线性的。

3. 正态性检验
解释:正态性是针对残差而不是针对变量进行检验的,可以采用直方图或者是概率分布图对残差的分布进行检验。

方法1:当预测变量值固定时,因变量成正态分布,则残差值也应该是一个均值为0的正态分布,采用QQ图或者是直方图进行检验。但这些属于目视解译的方法。

方法2:科学统计的方法可以采用几个统计量,如chi-square test, Kolmogorov-Smirnov test 和 Lilliefors test.。在Python中可以采用stats.kstest(model.resid, 'norm')进行KS检验。

4. 误差的独立性检验
解释:判断因变量值(或残差)是否相互独立,该检验适用于时间独立的数据,原假设是不相关,如果p值不显著说明无自相关性,误差项之间独立。

方法:采用Durbin Watson Test。

5. 同方差性
解释:指总体回归函数中的随机误差项在解释变量条件下具有不变的方差。同方差性是一个非常重要的性质,是不能被违背的,因为标准差是用来进行显著性检验和计算置信区间的。同样对于各种统计量,若p值显著,则说明存在异方差性;如果P值不显著,则说明不存在异方差性。

统计量检验:可以采用多种统计量进行检验,如Brown-Forsythe test, Levene’s test, Bruesch-Pagan test或者 Cook-Weisberg test。

检验方法1:比如采用Bruesch-Pagan test时可以采用代码sms.het_breuschpagan(model.resid, model.model.exog)。

检验方法2:在采用levene检验时,采用代码stats.levene()统计时,需要根据变量的分布确定center的选择,是mean, median或者是其他的,详情可参见官方文档。

存在异方差性的解决办法:一是改变变量的形式,二是采用鲁棒性的模型考虑异方差性。为了考虑数据中的异方差性,需要选择一个异方差一致性协方差矩阵heteroscedasticity consistent covariance matrix (HCCM) 并将它以参数“cov_type=”的形式传递给fit() 方法。这篇文章对HCCM做了一个很好的解释。

6. 多重共线性
解释:对于多元线性回归,判断自变量间的相关性强弱。

方法1:多重共线性可用统计量VIF(Variance Inflation Factor,方差膨胀因子)进行检测,一般原则下, VIF >2就表明存在多重共线性问题(自变量之间相关性很大)。

方法2:另外可以采用Condition Number对多重共线性进行度量,一般高于20就需要注意了。

回归诊断:

根据statsmodles中的官方文档Regression diagnostics对回归诊断进行总结。该部分内容与上部分的检验略有重复。

  1. 残差的正态Normality of the residuals:Jarque-Bera test和Omni test

  2. 强影响点诊断 Influence tests:OLSInfluence(results),可以画出leverage和residual的散点图。

  3. 多重共线性 Multicollinearity:查看condition number,np.linalg.cond(results.model.exog)

  4. 异方差性检验 Heteroskedasticity tests:Breush-Pagan test和Goldfeld-Quandt test。

  5. 线性检验 Linearity:采用Harvey-Collier multiplier test。

回归模型绘图:

同样是依据statmodels中的官方文档Regression Plots对回归结果进行绘图分析。

  1. 点的影响力绘图:Influence plots:Influence plots show the (externally) studentized residuals vs. the leverage of each observation as measured by the hat matrix. 影响力判断标准有两个, Cook’s distance and DFFITS,。

  2. 偏回归绘图,Partial Regression Plots,查看一个控制其他自变量的情况下某个自变量对因变量的影响。

  3. 自变量对因变量的影响力绘图,Component-Component plus Residual (CCPR) Plots

  4. 拟合诊断,Fit Plot,绘制一个自变量对因变量的拟合情况。

  5. 单变量回归诊断,Single Variable Regression Diagnostics,一下子绘制了四幅图进行诊断,sm.graphics.plot_regress_exog(prestige_model, "education", fig=fig)。

对回归模型的解释

  1. 查看模型是否是显著的,查看F统计量的Prob (F-statistic),看它是否是足够小。

  2. 查看每一个IV对于DV是否是显著的,即模型回归系数的显著性,查看P>|t|,一般选择p < 0.05。

  3. 对模型回归系数的解释,The coefficient (coef) can be interpreted as the affect in unit change in terms of the DV. Meaning, for every 1 unit increase in the IV, the DV will increase or decrease by the coefficient amount.。

  4. 对模型预测和解释能力的分析。It is predictive when used to predict future outcomes, and explanatory when used to explain the influence of each IV.

以上是在实践中对回归模型的诊断、检验、绘图和解释,一般情况下,我们进行回归分析有以下几个步骤,

  1. 首先是查看变量的分布,选择适合的模型进行回归。
  2. 然后是对回归模型进行检验和诊断,通过绘图和计算各种统计量进行判断。
  3. 对模型和变量进行重新调整,重新回归。
  4. 诊断模型无误,对模型进行解释。

边查边学,边学边记,加油加油,如有理解的错误的地方,俺回头再改,毕竟现在只能理解到这个份上了_

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容