大师兄的应用回归分析学习笔记(十三):自变量选择与逐步回归(一)

大师兄的应用回归分析学习笔记(十二):违背基本假设的情况(五)
大师兄的应用回归分析学习笔记(十四):自变量选择与逐步回归(二)

  • 在实际建立回归模型时,首先碰到的问题是如何确定回归自变量。
  • 通常情况是根据所研究问题的目的,结合经济理论列出对因变量可能有影响的一些因素作为自变量。
  • 如果遗漏了某些重要变量,回归方程的效果肯定不好。
  • 如果考虑了过多的自变量,可能会有以下问题:
  • 某些自变量可能并不重要
  • 有些自变量数据的质量可能很差
  • 有些自闭那辆可能和其他自变量有很大程度的重叠
  • 导致影响回归方程的应用:
  • 计算量增大许多
  • 得到的回归方程稳定性很差

一、自变量选择对估计和预测的影响

1. 全模型和选模型
  • 假设研究的某一实际问题涉及的对因变量有影响的因素共m个,由因变量y和m个自变量x_1,x_2,...,x_m构成的全回归模型为:y=\beta_0+\beta_1 x_1+\beta_2 x_2 +...+\beta_m x_m + \epsilon
  • 如果从所有可供选择的m个变量中挑选p个,由所选的p个自变量组成的选模型为:y=\beta_{0p}+\beta_{1p}x_1+\beta_{2p}x_2+...+\beta_{pp}x_p+\epsilon_p
  • 如果应该选用全模型去描述实际问题,而误选了选模型,说明在建模时丢掉了一些有用的变量。
  • 反之,则说明把一些不必要的自变量引进了模型。
  • 为了方便,把全模型的参数向量\beta\delta^2的估计记为:
  • \hat\beta_m=(X'_mX_m)^{-1}X'_my
  • \hat\delta^2_m=\frac{1}{n-m-1}SSE_m
  • 选模型的参数向量\beta\delta^2的估计记为:
  • \hat\beta_m=(X'_pX_p)^{-1}X'_py
  • \hat\delta^2_m=\frac{1}{n-p-1}SSE_p
2. 自选量选择对预测的影响
  • 假设全模式与选模式不同,当全模式正确而误选了选模式时,引用以下性质:
  • 性质1:在x_j与x_{p+1},...,x_m的相关系数不全为0时,选模式回归系数的最小二乘估计是全模式相应参数的有偏估计。
  • 性质2:选模型的预测是有偏的。
  • 性质3:选模型的参数估计有较小方差。
  • 性质4:选模型的预测残差有较小的方差。
  • 性质5:选模型预测的均方误差比全模型预测的方差更小。
  • 性质1和性质2说明,当全模式正确,而我们舍去了一个m-p个自变量,用剩下的p个自变量去建立选模型时,参数估计值是全模型形影参数的有偏估计,用其做预测,预测值也是偏的,这是误用选模型产生的弊端。
  • 性质3和性质4说明,用选模型去做预测,残差的方差比用全模型去做预测的方差小,尽管用选模型的预测是有偏的,但得到的预测残差的方差下降了。这说明尽管全模型正确,但误选选模型也是有弊有利的。
  • 性质5说明即使全模型正确,但如果其中一些自闭那辆对因变量影响很小或回归系数方差过大,则丢掉这些变量之后,用选模型可以提高预测的精度。由此可见,如果模型中包含一些不必要的自变量,模型的预测精度就会下降。
  • 上述结论可知,一个回归模型并不是考虑的自变量越多越好,在建立回归模型时,选择自变量的基本指导思想是少而精

二、所有子集回归

1. 所有子集的数目
  • 设在一个实际问题的回归建模中,由m个可供选择的变量x_1,x_2,...,x_m,由于每个自变量都有入选和不入选两种选择,因此这些自变量的所有可能的回归方程就有2^m-1个。
  • -1刨去了只包含常数项的情况。
2. 关于自变量选择的几个准则
  • 从数据与模型你和优劣的角度出发,认为残差平方和SSE最小的回归方程就是最好的,还用复相关系数R来衡量回归你和的好坏,但这两种方法都有明显不足:
  • 在残差平方和模式中(SSE_p),当再增加一个新的自变量x_{p+1}时,相应的残差平方和记为SSE_{p+1}。根据最小二乘估计的原理,增加自变量时残差平方和将减少,减少自变量时残差平方和将增加,因此有SSE_{p+1}\leq SSE_p
  • 又记他们的复决定系数R^2_{p+1}=1-SSE_{p+1}/SST,R^2_p=1-SSE_p/SST,由于SST是因变量的利差平方和,与自变量无关,因而R^2_{p+1}\geq SSE_p,即当自变量子集扩大时,残差平方和随之减小,而复决定系数R^2随之增大。
  • 因此,如果按残差平方和越小越好的原则来选择自变量子集,或者按复决定系数越大越好的原则,则毫无疑问选的变量越多越好。
  • 这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性。
  • 加上变量的测量误差累计和参数数目增加,将使估计值的误差增大。
  • 如此构造的回归模型稳定性差,为增大负相关系数R而付出了模型参数估计稳定性差的代价。
  • 从不同角度有以下常用准则
准则一:自由度调整复决定系数达到最大
  • 已知当给模型增加自变量时,复决定系数也随之逐步增大,然后复决定系数增大的代价是残差自由度的减少,因为残差自由度等于样本个数与自变量个数之差
  • 自由度小意味着估计和预测的可靠性低,这表示当一个回归方程涉及的自变量很多时,回归模型的拟合从表面上看是良好的,而区间预测和区间估计的幅度却变大,以至于失去实际意义。
  • 为了克服样本决定系数的这一缺点,需要设法对R^2进行适当的修正,使只有加入有意义的变量时,经过修正的样本决定系数才会增加,这就是自由度调整复决定系数
  • R^2_\alpha为调整的复决定系数,n为样本量,p为自变量的个数,则R^2_\alpha=1-\frac{n-1}{n-p-1}(1-R^2)
  • 显然有R^2_\alpha\leq R^2R^2_\alpha随着自变量的增加并不一定增大。
  • 尽管1-R^2随着变量的增加而减少,但系数(n-1)/(n-p-1)起了折扣的作用,当所增加的自变量对回归的贡献很小时,R^2反而可能减少。
  • 自由度调整复决定系数R^2_\alpha越大,所对应的回归方程越好,所有回归子集中对应的回归方程中R^2_\alpha最大的就是最优方程。
  • 从另一个角度考虑回归的拟合效果,回归误差项方差\delta^2的无偏估计为:\hat\delta^2=\frac{1}{n-p-1}SSE
  • 无偏估计中增加了惩罚因子n-p-1,\hat\delta^2实际上就是用自由度n-p-1做平均的平均残差平方和。
  • 平均残差平方和\hat\delta^2和复决定系数R^2_\alpha是等价的:R^2_\alpha=1-\frac{n-1}{SST}\hat\delta^2
  • 由于SST是与回归无关的固定值,所以是等价的。
准则二:AIC与BIC准则
  • AIC准则是日本统计学家赤池于1974年根据最大似然估计原理提出的一种模型准则,称为赤池信息量准则(Akaike information criterion, AIC)。
  • AIC准则即可以用来做回归方程自变量的选择,也可以用于时间序列分析中自回归模型的定阶。
  • 对一般情况,设模型的似然函数为L(\theta,x),\theta的维数为p,x为随机样本(y=(y_1,y_2,...,y_n)'),则AIC定义为:AIC=-2lnL(\hat\theta_L,x)+2p
  • 其中\hat\theta_L\theta的最大似然估计
  • p为未知参数的个数
  • 右边第一项是似然函数的对数乘以-2,
  • 右边第二项惩罚因子是未知参数个数的2倍。
  • 已知函数悦达的估计量越好,因此AIG达到最小的模型是最优模型。
  • 把AIC用于回归模型,假定回归模型的随机误差项\epsilon服从正态分布\epsilon \sim N(0,\delta^2)
  • 在这个正态假定下,回归参数的最大似然估计为:lnL_{max}=-\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\hat\delta^2_L)-\frac{1}{2\hat\delta^2_L}SSE
  • \hat\delta^2_L=\frac{1}{n}SSE代入得:lnL_{max}=-\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\frac{SSE}{n})-\frac{n}{2}
  • 这里似然函数中的未知参数个数为p+2,略去与p无关的常数,得回归模型的AIC公式为:AIC=nln(SSE)+2p
  • 在回归分析的建模过程中,对每一个回归子集计算AIC,其中AIC最小者所对应的模型是最优回归模型。
  • 赤池于1976年对AIC准则进行了改进,而Schwartz在1978年根据贝叶斯理论也得出同样的判别准则,称为BIC准则(Bayesian information criterion),也称为SBC准则(Schwartz's Bayesian criterion)。
  • BIC加大了对自变量数目的惩罚力度,是以令BIC达到极小BIC=nln(SSE)+ln(n)p
准测三:C_p统计量达到最小
  • 1963年Mallows从预测的角度提出了一个可以用来选择自变量的统计量,也就是C_p统计量
  • C_p统计量根据原理:即使全模型正确,也有可能选模型有更小的预测误差。
  • 考虑在n个样本点上用选模型式做回归预测,预测值与期望值的相对偏差平方和为:J_p=\frac{1}{\delta^2}\sum^n_{i=1}(\hat y_{ip}-E(y_i))^2=\frac{1}{\delta^2}\sum^n_{i=1}(\hat\beta_{0p}+\hat\beta_{1p}x_{i1}+...+\hat\beta_{pp}x_{ip}-(\beta_0+\beta_1x_{i1}+...+\beta_mx_{im}))
  • 可以证明,J_p的期望值是E(J_p)=\frac{E(SSE_p)}{\delta^2}-n+2(p+1)
  • 略去无关常数2,构造出Cp=\frac{SSE_p}{\hat\delta^2}-n+2p=(n-m-1)\frac{SSE_p}{SSE_m}-n+2p
  • 其中\hat\delta^2=\frac{1}{n-m-1}SSE_m为全模型中\delta^2的无偏估计
  • 得到C_p准则:选择C_p最小的自变量子集,这个自变量子集对应的回归方程就是最优回归方程。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,002评论 6 509
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,777评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,341评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,085评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,110评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,868评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,528评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,422评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,938评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,067评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,199评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,877评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,540评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,079评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,192评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,514评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,190评论 2 357

推荐阅读更多精彩内容