第十五章 多元回归

参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)

第十五章 多元回归

15.1 多元回归模型

用p表示自变量的数目。

15.1.1 回归模型和回归方程

多元回归模型
y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots +\beta_px_p+\epsilon

多元回归方程
E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\cdots +\beta_px_p

15.1.2 估计的多元回归方程

估计的多元回归方程
\hat y=b_0+b_1x_1+b_2x_2+\cdots +b_px_p

15.2 最小二乘法

最小二乘法准则
min\sum(y_i-\hat y_i)^2
通过让残差的平方和达到最小,求得b_0,b_1,\cdots,b_p,这些值很难计算(涉及矩阵代数),所以我们只需要会用计算机算就可以了。

15.2.1 一个例子:Butler运输公司

Butler运输公司管理人员想估计司机每天的行驶时间。


image

image

通过散点图的观察,我们可以先用简单线性回归模型来描述每天行驶的时间(y)和每天行驶的里程(x)之间的关系。利用计算机得出:\hat y=1.27+0.0678x_1
其中F为15.81,对应的p-值为0.004<0.05,所以我们拒绝原假设H_0:\beta_1=0。这是一个不错的结果,但是管理人员希望考虑第二个自变量去解释应变量中剩余的变异性。

管理人员把运送货物的次数(x_2)加入到自变量。得到回归方程\hat y=-0.869+0.0611x_1+0.923x_2

image

15.2.2 关于回归系数解释的注释

  • 简单线性回归:我们把b_j看作是当自变量变化1个单位时,应变量y变化程度的一个估计。
  • 多元回归分析:当所有其它自变量保持不变,b_j可以看作对应x_j变化1个单位时,应变量y变化程度的一个估计。

15.3 多元判定系数

  • SST=\sum(y_i-\bar y)^2总的平方和
  • SSR=\sum(\hat y_i-\bar y)^2回归平方和
  • SSE=\sum(y_i-\hat y_i)^2

关系:SST=SSR+SSE
上述的计算很困难,我们可以使用计算机得到。

自变量个数 SST SSR SSE
一个 23.9 15.871 8.029
两个 23.9 21.601 2.299

可以看到不同自变量下,两个自变量在SSR中贡献更多,得到了更好的拟合。

多元判定系数
R^2=\frac{SSR}{SST}
理解:应变量y中的变异性能被估计的多元回归方程解释的比例。

这个判定系数可以再上图计算机的结果中,看R-Sq,修正后的为R-Sq(adj)(sq为平方,adj为adjust修正后的)

由于自变量个数增加,判定系数也会增加,我们使用下面的方法来修正。
修正多元判定系数
R_A^2=1-(1-R^2)\frac{n-1}{n-p-1}(p为自变量数目,n为观测值数目)

R^2数值比较小,而模型的自变量数目多,则修正后可能变负数。这个时候Minitab会调整为0.

15.4 模型的假定

关于多元回归模型y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots +\beta_px_p+\epsilon的误差项\epsilon的假定:

  1. 误差项E(\epsilon)=0E(y)是给定所有自变量后的所有可能出现的值的期望。
  2. 对于自变量x_1,x_2,\cdots,x_p的所有值,\epsilon的方差(\sigma^2)都是相同的。
  3. \epsilon是相互独立的,对于自变量x_1,x_2,\cdots,x_p的一组特定值对应一个误差项\epsilon
  4. 误差项\epsilon服从正态分布,这就意味着模型中y=\hat y+\epsilon由于\hat y预测值在一组自变量下是一定的,\epsilon服从正态分布,那么y的真实值也是服从正态分布的。

举例:E(y)=\beta_0+\beta_1x_1+\beta_2x_2

image

E(y)是一个平面,叫响应曲面。
响应变量=应变量

15.5 显著性检验

在简单线性回归中t检验和F检验在原假设被拒绝时给出同样的结论,即\beta_1 \neq 0。而在多元回归中。

  1. F检验用于确定应变量和所有自变量之间是否存在一个显著性关系,称作总体的显著性检验。
  2. 如果F检验显示模型总体的显著性,那么用t检验来确定每单个自变量是否为一个显著的自变量。称作单个的显著性检验。

15.5.1 F检验

F检验的假设:H_0:\beta_1=\beta_2=\cdots=\beta_p=0,H_a:至少有一个参数不为0

概念回忆:均方=\frac{平方和}{自由度}
自由度:总平方和n-1,回归平方和SSR为p个自由度,误差平方和SSE为n-p-1个自由度。
因此:均方回归MSR=\frac{SSR}{p},均方误差MSE=\frac{SSE}{n-p-1}
其中MSE给出了误差项\epsilon方差\sigma^2的无偏估计量。如果H_0成立,MSR也会给出\sigma^2的无偏估计量。但如果拒绝H_0则MSR会高估\sigma^2

总体显著性的F检验

  • 假设:H_0:\beta_1=\beta_2=\cdots=\beta_p=0,H_a:至少有一个参数不为0
  • 检验统计量:F=\frac{MSR}{MSE}
  • 拒绝法则:
    • p-值法:如果p-值\leq \alpha,则拒绝H_0
    • 临界值法:如果F \geq F_{\alpha},则拒绝H_0
      其中,F_{\alpha}代表分子自由度为p,分母自由度为n-p-1时,F分布上侧面积为\alpha的F值。

回到Butler公司的案例,利用Minitab计算出F=\frac{MSR}{MSE}=\frac{10.8}{0.328}=32.9

image

计算得到F=32.9,分子分母自由度分别为2和7。的上侧面积小于0.01,则我们拒绝H_0。同样的临界值法算出上侧面积为0.01的F=9.55,也可以得到同样的结论。

MSE是对\epsilon方差(\sigma^2)的无偏估计。则s=\sqrt{MSE}=0.573(Butler公司案例)

一般的方差分析表(ANOVA):


image

15.5.2 t检验

t检验帮助我们确定每一个参数的显著性。
单个参数显著性的t检验

  • 对任一个参数\beta_i的假设:H_0:\beta_i=0, H_a:\beta_i \neq 0
  • 检验统计量:t=\frac{b_i}{s_{b_i}}
  • 拒绝法则:
    • p-值法:如果p-值\leq \alpha,则拒绝H_0
    • 临界值法:如果t\leq -t_{\alpha/2}或者t\geq t_{\alpha/2},则拒绝H_0

其中,t_{\alpha/2}是自由度为n-p-1时,使t分布的上侧面积为\alpha/2的t值。(要看t值的正负)

回到Butler公司,求得b_1=0.061135,s_{b_1}0.009888b_2=0.9234,s_{b_2}=0.2211
计算得到t分别为6.18和4.18。对应p-值为0.000和0.004(p值是由单侧面积乘2得到)。则我们拒绝两个H_0,认为两个参数都是显著的。
当然也可以用临界值法。

15.5.3 多重共线性

在多元回归分析中,往往自变量和自变量也存在联系,比如当我们计算行驶里程(x_1)和运送次数(x_2)的相关系数r_{x_1x_2}=0.16。我们把自变量之间的相关性称为多重共线性

当我们把自变量变为:行驶里程(x_1)和油耗(x_2)。可能在t检验中出现不能拒绝H_0:\beta_1=0。这可能是因为x_2已经在模型里了,导致x_1不再有显著呃贡献。

综上所述:当总体显著性的F检验表明有显著关系时,可能得到单个参数没有一个是显著的不等于0。只有当自变量之间的相关性非常小才能回避这个问题。

经验:当相关系数绝对值>0.7,多重共线性可能称为一个潜在的问题。

15.6 应用估计的回归方程进行估计和预测

在14章说明了,对于给定的自变量,y的期望值的点估计和y的一个个别值得点估计都是\hat y=b_0+b_1x,在多元回归分析中同样如此。

问题:

  1. 对所有运货汽车,行驶100英里,运送2次的情况下,求汽车平均行驶时间的置信区间。
  2. 对特定运货汽车,行驶100英里,运送2次的情况下,求汽车行驶时间的预测区间。

利用估计的回归方程\hat y=-0.869+0.0611x_1+0.923x_2计算得到在x_1=100,x_2=2时,\hat y=7.09。后续的计算用计算机软件即可,下图时Minitab的示例:

image

注意:预测区间往往比置信区间的范围更大。也就是说预测的精准度相比更低。

15.7 分类自变量

15.7.1 一个例子:约翰逊过滤股份公司

我们希望预测客户提出水过滤系统的维修时间。

  • 应变量:维修时间
  • 自变量:上次维修到这次保修的时间差(x_1),故障类型(x_2)

我们利用预测的回归模型:y=\beta_0+\beta_1x_1+\epsilon算出x_1和y的简单线性回归。发现R-sq=53.4%表明x_1只能解释维修时间变异性的53.4%。

image

我们引入自变量x_2=\begin{cases}0,& 如果故障维修类型是机械的\\1, &如果故障维修类型是电子的 \end{cases}
在回归分析中,x_2虚拟变量指标变量
我们把多元回归模型写成:y=\beta_0+\beta_1x_1+\beta_2x_2+\epsilon

利用Minitab计算得到\hat y=0.93+0.388x_1+1.26x_2

image

在0.05的显著水平下,p-值为0.001,我们认为回归关系是显著的。

15.7.2 解释参数

当已知机械故障类型时,可以分别计算两个预测的回归方程:


image

image

15.7.3 更复杂的分类变量

当分类变量有k个水平,则需要定义k-1个虚拟变量。每个虚拟变量只能为0或1。
举例:复印机制造商的销售数量

  • 应变量:销售数量
  • 自变量:销售地区(A、B、C),
image

设置方式,全为0代表一个分类,其中仅有一个为1代表一个分类。这样k个分类,刚好需要k-1个虚拟变量。
对应的回归方程如下:


image

总结:分类变量对于线性回归相当于时同一斜率下,上下平移一定举例。

15.8 残差分析

第i次观测的标准化残差\frac{y_i-\hat y_i}{s_{y_i-\hat y_i}}(分母为残差的标准差)
第i次观测的残差的标准差s_{y_i-\hat y_i}=s\sqrt{1-h_i}h_i代表第i次观测的杠杆率)

利用计算机我们可以轻松计算:


image

image

图中反映的标准化残差都在\pm 2之间,因此没有理由怀疑误差项\epsilon是正态分布的假定。
当然也可以用正态概率图。

15.8.1 检测异常值

一般来说,如果数据集存在一个或以上的异常值,将导致估计的标准误差s增加。从而使得第i次观测的残差的标准差s_{y_i-\hat y_i}增加。这就导致在标准化残差中分母变大,让原本大于2的值小于2了。那么这个标准化残差规则就失效了。
我们可以用学生化删除残差的标准化残差,来解决这个问题。

15.8.2 学生化删除残差和异常值

s_{(i)}表示从数据集中删除了第i次观测值后得到的估计的标准误差。如果我们用s_{(i)}代替s_{y_i-\hat y_i}=s\sqrt{1-h_i}中的s,这样的到的标准化残差称为学生化删除残差如果第i次观测是异常值,那么s_{(i)}将小于s。所以第i次观测的学生化删除残差的绝对值大于标准化残差的绝对值。也就是说,学生化删除残差可以检测出标准化残差不能检测出的异常值。

image

我们利用t分布来确定学生化删除残差是否表明存在异常值。p表示自变量个数,n表示观测值个数。此时,误差平方和自由度为(n-1)-p-1=6在自由度为6双侧分位数t_{0.025}=2.447
当有学生化删除残差的绝对值大于2.447即为异常值,本表中显示无异常值。

15.8.3 有影响的观测值

前面讲到如何利用杠杆率来识别有影响的观测值。也可以用经验法则:h_i>3(p+1)/n来识别有影响的观测值。

image

15.8.4 利用库克举例测度识别有影响的观测值

如图所示,最后一个观测值的杠杆率0.91>0.75(杠杆率的临界值),所以这个观测值被识别出来是一个有影响的观测值。


image

但是我们看到散点图,在图中两个回归方程没有明显区别。尽管杠杆率认为最后一个是异常值。


image

库克距离测度,利用第i次观测的杠杆率h_1和第i次观测的残差(y_i-\hat y_i)来确定这个观测值是否是一个有影响的观测值。
D_i=\frac{(y_i-\hat y_i)^2}{(p+1)s^2}\left[\frac{h_i}{(1-h_i)^2}\right]
其中,p代表自变量个数,s代表估计的标准误差。

经验准则:D_i>1时,表明第i次观测值是一个有影响的观测值。

15.9 logistic 回归

例子:银行希望建立一个估计回归方程,符合条件的信用卡申请用户应变量y=1,拒绝批准的y=0。利用logistic回归就能估计批准使用的信用卡的概率。

例子:Simmons经营的妇女服饰连锁店,想通过邮寄广告册(内含满200-50的优惠券)的方式来增加销量。但是广告册成本高,所以想通过下面两个变量来判断顾客是否会消费200及以上的金额。

  • 在Simmons的年消费支出
  • 是否有Simmons信用卡

现在抽取样本容量n=100,其中有信用卡和无信用卡的各占50.优惠券如果被使用,赋值为1,否则为0。


image

15.9.1 logistic回归方程

logistic回归方程
E(y)=\frac{e^{\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p}}{1+e^{\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p}}

logistic回归中E(y)被解释为概率
E(y)=P(y=1|x_1,x_2,\cdots,x_p)

image

15.9.2 估计logistic回归方程

估计的logistic回归方程
\hat y=P(y=1|x_1,x_2,\cdots,x_p)的估计=\frac{e^{b_0+b_1x_1+b_2x_2+\cdots+b_px_p}}{1+e^{b_0+b_1x_1+b_2x_2+\cdots+b_px_p}}

回到Simmons商店的例子:

image

利用Minitab的二进制logistic回归程序计算模型参数\beta_0,\beta_1,\beta_2的估计值。对应b_0=-2.15,b_1=0.34,b_2=1.10
image

然后就可以使用公式判断特定的一组自变量(x_1,x_2)使用优惠券的概率了。

15.9.3 显著性检验

  • 总体显著性检验
    • 假设:H_0:\beta_1=\beta_2=0,H_a:至少有一个参数不等于零
    • 检验统计量:G检验统计量服从自由度为模型中自变量个数的\chi^2分布。(图15-13底部)
  • 单个自变量显著性检验:
    • 假设:H_0:\beta_1=0,\beta_1 \neq 0
    • 检验统计量:z_i=b_i/s_{b_i}(服从标准正态分布)(图15-13中间的spending和card,两个p-值都小于0.05)

15.9.4 管理上的应用

算出不同自变量组合的概率,如下图


image

筛选出合适的概率进行邮递广告册即可。

15.9.5 解释logistic回归方程

由于自变量与y=1是非线性方程,但可以利用机会比率的概念间接解释这个关系。
有利于一个时间发生的机会比(=\frac{P(y=1)}{P(y=0)}):被定义为事件将要发生的概率与该事件将不会发生的概率的比。
机会比率:度量了当一组自变量中只有一个自变量增加了一个单位时,对机会比的影响。
机会比率=\frac{odds_1}{odds_0}
其中odds_1是该组自变量的一个增加了一个单位时,y=1的机会比(odds_1)除以没有变化时y=1的机会比(odds_0)。

回到Simmons的例子,信用卡顾客年消费2000美元(x_1=2,x_2=1),无信用卡顾客年消费2000美元(x_1=2,x_2=0)。
对应的odds_1点估计值=\frac{P(y=1|x_1=2,x_2=1)}{1-P(y=1|x_1=2,x_2=1)}=0.6946,odds_0的点估计值=\frac{P(y=1|x_1=2,x_2=0)}{1-P(y=1|x_1=2,x_2=0)}=0.2315;则估计的机会比率=\frac{0.6946}{0.2315}=3.00
结论:前一个顾客使用优惠券的机会比是后一个顾客使用消费券的机会的3倍。(不代表y的值是3倍。)

我们回到下图,看到Odds Ratio对于spending和card分别是1.41和3.00


image

spending的1.41表示3000美元的顾客使用优惠券的机会比是消费2000美元的顾客使用消费券的机会比的1.41倍。同理4000是3000的1.41倍。
card的3.00表示有信用卡的顾客使用优惠券的机会比是无信用卡的顾客使用优惠券的机会比的3倍。
上述都是针对自变量增加1个单位的机会比变化。每个自变量都能写成:机会比率=e^{\beta_1}
那么:
- 估计的机会比率=e^{b_1}=e^{0.341643}=1.41
- 估计的机会比率=e^{b_1}=e^{1.09873}=3

那么现在我们就可以求得消费5000美元顾客使用优惠券的概率是2000美元顾客使用优惠券概率的倍数。
- c=5-2=3
- e^{c\beta_1}=e^{3 \times 0.341643}=e^{1.0249}=2.79
则消费5000美元顾客使用优惠券的概率是2000美元顾客使用优惠券概率的2.79倍。

一般来说软件还会给出机会比率的95%的置信区间。且机会比率大于1,说明自变量增加对结果是正影响。

15.9.6 对数机会比(logit)变换

对数机会比g(x_1,x_2,\cdots,x_p)=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p
估计的对数机会比\hat g(x_1,x_2,\cdots,x_p)=b_0+b_1x_1+b_2x_2+\cdots+b_px_p

估计的logistic回归方程:\hat y=\frac{e^{\hat g(x_1,x_2,\cdots,x_p)}}{1+e^{\hat g(x_1,x_2,\cdots,x_p)}}


链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容