第十六章 回归分析:建立模型

参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)

第十六章 回归分析:建立模型

16.1 一般线性模型

对于一个应变量y和k个自变量x_1,x_2,\cdots,x_k,我们希望建立估计的回归方程
一般线性模型y=\beta_0+\beta_1z_1+\beta_2z_2+\cdots+\beta_pz_p+\epsilon

这里每个自编两z_i都是x_i的函数。当然也可以多个z_i对应一个自变量x

16.1.1 模拟曲线关系

举例:Reynolds希望调研销售代表工作年限和销售数量之间的关系。如下图:


image

用简单一阶模型得到估计回归方程:Sales=111+2.38Months
如下图所示,尽管这个线性关系是显著的,R-sq也能解释大部分变异。然而标准化残差图启发我们,仍然需要一个曲线关系。

image

为了说明这个曲线关系:我们令z_1=x_1,z_2=x_1^2得到模型:y=\beta_0+\beta_1x_1+\beta_2x_1^2+\epsilon(二阶模型)
我们需要手动增加一列数据为x_1^2,得到:Sales=45.3+6.34Months-0.0345MonthsSq

image

image

根据残差图,和计算机的输出,这个模型也是显著的。使用一般线性模型。

16.1.2 交互作用

如果原始数据包含yx_1,x_2,则在一般线性模型中:z_1=x_1,z_2=x_2,z_3=x_1^2,z_4=x_2^2,z_5=x_1x_2,为了在二阶模型中说明两个变量共同作用产生的潜在影响,我们增加z_5=x_1x_2。这个影响被称为交互作用

举例:Tyler认为对销售量起最大影响的两个因素是单价和广告费。设置单价2、2.5、3;广告费50000和100000美元。


image

image

建立估计的回归方程:

  • 一般线性模型:y=\beta_0+\beta_1z_2+\beta_2z_2+\beta_3z_3+\epsilon
  • 分别用z_1=x_1,z_2=x_2,z_3=x_1x_2来取代
  • 利用Minitab得到:Sales=-276+175Price+19.7Adv-6.08PiceAdv
image

从计算机的输出可以看到总体F检验的p-值是0.000,PriceAdv的t检验p-值也是0.000。
结论:在已知价格和广告费的线性影响下,交互作用是显著的;广告费对销售量的影响依赖于产品销售价格。

16.1.3 涉及应变量的变换

前面讲了自变量的变换,现在我们来介绍应变量的变换。先看例子的数据:


image

image

通过散点图,我们判断存在负的线性关系。利用简单的一阶模型得到:MPG=56.1-0.0116Weight(MPG为英里/加仑额定值,结果p-值0.000,R-Sq=93.5%)

但是我们看到标准化残差图,随着MPG增加,\hat y的变异性也开始增加。这不是我们想要的水平带状图,而是一个楔形图。这种图被认为是非常数方差的征兆。

image

如何修正非常数方差的问题呢?通常对应变量做一个变换。比如给应变量取对数(ln,lg)或者取倒数\frac{1}{y}。我们给MPG取ln对数,标记为LogeMPG。得到:LogeMPG=4.52-0.000501Weight

image

具体取对数(选哪个对数),还是倒数要实际试试。

16.1.4 内线性的非线性模型

当参数(\beta_0,\beta_1,\cdots,\beta_p)的幂次超过一次的模型被称为非线性模型。这种指数模型一般变换为如下的一般线性模型:E(y)=\beta_0\beta_1^x

例如:销售收入y依赖于广告费用x。

  • 指数模型:E(y)=500\times (1.2)^x 随着x增加是按照1.2的比例增加的
  • 取对数:\log E(y)=\log\beta_0+x\log\beta_1
  • 相当于:\hat y'=b_0'+b_1'x

我们可以先计算b_0',b_1'。然后代入x,求出对应的\hat y'\hat y'的反对数就是我们要求的y的预测值。(这里看不懂怎么倒回去的)

16.2 确定什么时候增加或删除变量

本节介绍使用F检验来确定,给一个多元回归模型中增加变量,所得到的误差平方和减少的量。
例子:(来源15章)
Butler运输公司,使用行驶里程(x_1)和运送次数(x_2)来估计行驶时间。

  • 只有一个变量:\hat y=1.27+0.0678x_1 SSE=8.029
  • 有两个变量:\hat y=-0.869+0.0611x_1+0.923x_2 SSE=2.299

我们看到SSE减少了,但我们希望知道这个减少是否显著。

  • F检验的分子:\frac{SSE(x_1)-SSE(x_1,x_2)}{原模型自变量个数}=\frac{8.029-2.299}{1}=5.730
  • 分子表示:自变量每增加一个单位误差平方和的减少的度量。
  • F检验的分母:MSE=\frac{SSE(x_1,x_2)}{n-p-1}=\frac{2.299}{7}=0.3284
  • 分母是包括全部自变量的模型的均方误差p为自变量个数。
  • F=\frac{\frac{SSE(x_1)-SSE(x_1,x_2)}{原模型自变量个数}}{\frac{SSE(x_1,x_2)}{n-p-1}}
  • F检验的自由度:
    • 分子:增加到模型中的自变量个数
    • 分母:n-p-1

经过计算:p-值小于0.05,所以拒绝H_0:x_2在统计上是不显著的

这里部分情况,t检验和F检验可以混用,这里就不说了。

16.2.1 一般情形

  • 在含有q个自变量得多元回归中:(q<p)
    y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_qx_q+\epsilon
  • 自变量增加后:
    y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_qx_q+\beta_{q+1}x_{q+1}+\cdots+\beta_px_p+\epsilon
  • 假设:
    • H_0:\beta_{q+1}=\beta_{q+2}=\cdots=\beta_p=0
    • H_a:参数\beta_{q+1},\beta_{q+2},\cdots,\beta_p中至少有一个不为0
      这里当新增参数都为0时,则认为s这些新增得自变量影响不显著。
      F=\frac{\frac{SSE(x_1,x_2,\cdots,x_q)-SSE(x_1,x_2,\cdots,x_q,x_{q+1},\cdots,x_p)}{p-q}}{\frac{SSE(x_1,x_2,\cdots,x_q,x_{q+1},\cdots,x_p)}{n-p-1}}
  • 自由度:分子(p-q),分母(n-p-1)
  • F_{\alpha}的上侧面积小于0.05时,则可以拒绝H_0认为新增自变量是显著的。

16.2.2 p-值的应用

p-值可以用计算机算。并且F可以转换为:

image

F=\frac{\frac{SSR(完全)-SSR(简化)}{自变量增加的个数}}{MSE(完全)}

16.3 大型问题的分析

下面的Cravens数据,我们想探究Sales的影响因素,给到了下边八个自变量。


image

我们首先得到相关矩阵,看到各个变量间的相关系数。

image

第一步:观察相关矩阵
我们看到Time和Accounts的相关系数0.758>0.7,所以尽可能只选择这两个其中1个自变量。(多了不会对模型增加更多的解释能力,因为多重共线性可能对估计结果产生影响)。另外我们看到Accounts和Sales的相关系数为0.754,相关系数的平方为判定系数,则Accounts能解释Sales中(0.754)^2%的变异性。

第二步:选择所有自变量建立估计的回归方程
我们尝试建立8个自变量的多元回归模型,其修正判定系数(Rsq(adj))=88.3%


image

第三步:选择p-值显著的变量建立估计的回归方程
我们看到仅有Poten、AdvExp和Share的p-值是显著的。所以我们仅用这3个自变量来计算模型。


image

总结:当面对8个变量时,如果选择1个,对应有8个单变量估计的回归方程;如果选择2个,对应有C_8^2=28个估计的回归方程,等等。总计:255个估计的回归方程。我们可以使用计算机,但是也挺难算的。所以下节介绍几个变量选择的方法。

16.4 变量选择方法

下面4个子标题就是要介绍的选择方法,前三种是反复迭代的方法,每一步只增加或删除一个自变量,并对新的回归模型进行评价。最后一种(最佳子集回归)不是单变量一次性方法,需要对包含不同的自变量子集的回归模型进行凭家。
我们利用F统计量计算得到F=\frac{\frac{SSE(x_1,x_2,\cdots,x_q)-SSE(x_1,x_2,\cdots,x_q,x_{q+1},\cdots,x_p)}{p-q}}{\frac{SSE(x_1,x_2,\cdots,x_q,x_{q+1},\cdots,x_p)}{n-p-1}},通过不断地增加和减少自变量寻求最佳选择。

16.4.1 逐步回归

要求Alpha\ to\ remove \geq Alpha\ to\ enter(防止一个步骤中一个变量先被删除,又重新进入)

  • Alpha to remove:对每个自变量F计算对应的p-值,如果p-值>Alpha to remove,则被删除。并开始新的一步。
  • Alpha to enter:如果没有自变量能从模型种被删除,那么回归方法将试图使零一个自变量进入模型,首先对没有在模型中的每一个自变量计算F统计量和对应的p-值。如果自变量的p-值\leqAlpha to enter,则具有最小p-值得自变量将进入模型。

按照这种方式将逐步回归过程继续进行下去,直到没有一个自变量能从模型种被删除,或者没有一个自变量能被增加到模型上为止。


image

综上所述:先删除自变量,再增加自变量。直到既不能删除也不能增加。

16.4.2 前向选择

从没有自变量开始,和逐步回归中Alpha to enter步骤一样的方法判断自变量是否应该增加。增加后不再删除,当不在模型中得每一个自变量的p-值都大于Alpha to enter时,则前向选择结束。

16.4.3 后向消元

和前向选择相反,先包含所有自变量。和逐步回归中Alpha to remove步骤一样的方法判断自变量是否应该删除。删除后不再增加。当模型中自变量的p-值没有一个大于Alpha to enter时,则后向消元结束。

16.4.4 最佳子集回归

image

上图右上角是八个自变量,竖着看。
上图的输出中,识别出两个最佳单变量估计的回归方程,两个最佳的两变量估计的回归方程,两个最佳的三变量回归方程,等等。我们通过看R-sq(adj)来选择自变量,如果差不太多,一般选择自变量少的更受人喜欢。

16.4.5 作出最终的选择

image

从修正判定系数来看,我们愿意选择6,但是如果其中poten和share难以度量,我们可以退而求其次选择2,也节省了我们度量的成本。

补充:

  • 可以令z=x_1x_2作为新的变量加入到模型中,来表示自变量交互作用

16.5 实验设计的多元回归方法

在第十三章中,Chemitech公司的完全随机化涉及


image

这里有三种方法,我们需要定义虚拟变量。k个不同的水平处理,需要k-1个虚拟变量。Chemitech公司案例中虚拟变量设为A、B。即E(y)=\beta_0+\beta_1A+\beta_2B

image

输入数据:
image

得到结果:
image

从估计的回归方程得到的E(y)估计值和平均值是一致的。接下来我们利用多元回归分析分析的输出,对这三种装配方法生产数量平均值之间的区别,进行ANOVA检验。如果没区别则对应的E(y)=E(y)
通过代入虚拟变量,方法A的E(y)=\beta_0+\beta_1,方法B的E(y)=\beta_0+\beta_2,方法C的E(y)=\beta_0,观察后做出假设H_0:\beta_1=\beta_2=0(此时三种方法的E(y)相等)
求解出F如上图所示F=9.18,p-值=0.004。因此我们拒绝H_0认为不全等于0,且两个参数的p-值也可以拒绝H_0:\beta_1=0,H_0:\beta_2=0,因此可以得到三种方法两两各不相同。

16.6 自相关性和杜宾-瓦特森检验

现实中很多数据是按照时间顺序采集的,y_1是在时期t的值,而y_1本身又常常依赖y以前的值。我们称在数据中存在的自相关性序列相关)。
例如:

  • y依赖于t-1时起的值,我们称数据中存在一阶自相关性。
  • y依赖于t-2时起的值,我们称数据中存在二阶自相关性。

回归模型假定误差项是独立的,但在数据存在自相关性时违背了这一假定。 一阶自相关性:t时期的\epsilon_t依赖于t-1时期的\epsilon_{t-1}

image

如何利用杜宾-瓦特森统计量来检测一阶自相关性。假设\epsilon_t=p\epsilon_{t-1}+z_t其中p的绝对值小于1。z_t是平均值为0、方差为\sigma的独立的正态分布的随机变量。

  • 如果p为0则不存在自相关性,
  • 如果p>0则存在正自相关性
  • 如果p<0则存在负自相关性

杜宾-瓦特森检验统计量d=\frac{\sum_{i=2}^n (e_i-e_{i-1})^2}{\sum_{i=2}^ne_i^2}
其中e_i=y_i-\hat y表示第i个残差。并且d的取值介于0~4。根据上面的图我们可以知道:

  • 当残差的相邻值彼此近,则d就小,意味着正自相关性
  • 当残差的相邻值彼此远,则d就大,意味着负自相关性

假设:

  • 原假设:H_0:p=0不存在自相关性
  • 备择假设:
    • 检验正自相关性:H_a:p>0
    • 检验负自相关性:H_a:p<0
    • 双侧检验:H_a:p \neq 0
image

d_L为下界,d_U为上界。结论判断如下:

  • 正自相关性检验:
    • d<d_L,存在正自相关性
    • d_L \leq d \leq d_U,不能确定是否存在正自相关性
    • d_U<d,无正自相关性。

其他检验如下图所示:


image

如果显著的自相关性被识别出来,怎么做?

  • 考虑是否遗漏了重要的自变量,并且这些自变量会产生时序的影响。
  • 如果没找到这样的自变量,引入一个观测次数的度量作为新的自变量。
  • 如果还不起作用,可以常吃对自变量、应变量进行变换。

注意:杜宾-瓦特森检验的样本容量,许多统计学家认为至少应该为50。


链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351