线性回归模型中的多重共线性问题判别与解决

最近把统计学读完才终于弄明白信用风险模型中所说的多重共线性到底是什么，为什么要求最终模型中一定不能存在多重共线性，本以为这些变量不是都对预测违约率有作用吗？那留着为什么不行呢?希望通过这篇文章让自己彻底搞明白

什么是线性回归模型？

先聊聊啥是线性回归模型，线性回归模型=线性+回归模型

回归分析

用一定的数学表达式讲变量之间的数量关系描述出来，进而确定一个或几个变量（自变量）的变化对另一个特定变量（因变量）的影响程度
解决什么问题
1最显然的可以利用所求的关系式可估计或预测因变量的取值，并给出预测的可靠程度，比如“明天下雨的概率”
2附带可以知道在影响因变量的诸多变量中哪些变量的影响是显著的，哪些是不显著的，比如遇到领导问“最近的客群很奇怪，帮我看看到底这些人有什么特征？”“你就知道线性回归分析是可以用来解决这个问题的”

回归模型

就是描述因变量y如何依赖于一个或多个自变量和误差项e的方程

线性回归

当然指的是因变量和自变量之间的关系是线性的

一元/多元线性回归

区别是自变量的个数

举个多元线性回归的栗子 y=b0+b1x1+b2x2+...+bkxk，其中b1,b2称为偏回归系数，b1表示当x2,...xk不变时，x1每变动一个单位因变量y的平均变动量，其余偏回归系数的含义也是类似的。

多重共线性问题

回归模型中存在两个或两个以上的自变量彼此相关

有啥影响

1变量之间高度相关，可能使回归的结果混乱，甚至把分析引入歧途。
2对参数估计值的正负号产生影响，特别是估计系数的符号可能与预期的正相反，造成对回归系数的解释是危险的。
比如：违约率应该和贷款余额是正相关的，但由于有其他因素的影响最终模型中贷款余额的系数为负，得到“贷款余额越大违约率越低”的危险解释。
可见：在建立线下回归模型时，不要把所有自变量都放进来除非有必要，因为他们带来问题比解决的问题可能更多！

如何判别多重共线性

1如上文所说，回归系数的正负号与预期的相反
2模型的线性关系检验（F检验）显著，但几乎所有回归系数bi的t检验却不显著（后面文章会详细解释线性关系检验和t检验）
3容忍度和方差扩大因子VIF（variance inflation factor）本文主要解释的方法
VIF=1/（1-Ri平方）
某个自变量的容忍度=1减去该自变量为因变量而其他k-1个自变量为预测变量时所得到的线性回归模型的判定系数=1-Ri平方

其中，判定系数Ri平方=SSR/SST=回归平方和/总平方和，测度了回归方程对观测数据的拟合程度，若所有估计值与观测值都完全一致，Ri平方=1

那么容忍度越小，第i个自变量被其他k-1个自变量可拟合的程度就越高，代表多重共线性就越严重

而VIF=容忍度的倒数，VIF越大，多重共线性就越严重，一般认为VIF大于10时，存在严重的多重共线性

如何解决多重共线性问题

1简单粗暴，把相关的自变量从模型中剔除
2采用PCA等变量降维方法，原始变量一个不要全部采用PCA组合出来的变量，一次性解决多重共线性问题
3在建模过程中采用逐步回归的方法逐个选择进入模型的变量，避免多重共线性问题发生
选择变量的方法
一个变量是否留在回归模型中的检验根据是，使残差平方和SSE显著减少，方法有向前选择，向后剔除，逐步回归，最优子集等
以向前选择法为例说明过程：
第一步：对k个自变量分别拟合因变量y的医院线性回归模型，共k个，找F统计量值最大的自变量xi，第一个引入模型
第二步：在第一个变量的基础上，分别引入其他k-1个自变量，建立k-1个回归模型，变量组合分别为xi+x1，xi+xi-1，xi+xi+1，xi+xk，找到F统计量最大的模型，并把模型中的xj引入模型
依次不停的增加自变量，直到增加自变量不能导致SSE显著增加为止。
向后法与向前法相反，逐步回归就是将上述两种方法结合起来。

上述基本把多重共线性问题的来历和影响解释清楚了，至于文中提到的F检验和t检验到底是什么怎么做会在后续文章中一一mark下来

我会出一个关于信用风险建模系列文章，即是对自己学习的总结也是希望与大家分享交流共同进步

知其然更要知其所以然，加油！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,273评论 6赞 515
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,349评论 3赞 398
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,709评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,520评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,515评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,158评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,755评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,660评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,203评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,287评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,427评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,122评论 5赞 349
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,801评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,272评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,393评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,808评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,440评论 2赞 359