第十五章多元回归

参考书目为安德森的《商务与经济统计》，以下为个人的学习总结，如果有错误欢迎指正。有需要本书pdf的，链接在本文末尾。（仅限个人学习使用，请勿牟利）

第十五章多元回归

15.1 多元回归模型

用p表示自变量的数目。

15.1.1 回归模型和回归方程

多元回归模型：
$y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots +\beta_px_p+\epsilon$

多元回归方程：
$E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\cdots +\beta_px_p$

15.1.2 估计的多元回归方程

估计的多元回归方程：
$\hat y=b_0+b_1x_1+b_2x_2+\cdots +b_px_p$

15.2 最小二乘法

最小二乘法准则：
$min\sum(y_i-\hat y_i)^2$
通过让残差的平方和达到最小，求得 $b_0$ , $b_1$ , $\cdots$ , $b_p$ ，这些值很难计算（涉及矩阵代数），所以我们只需要会用计算机算就可以了。

15.2.1 一个例子：Butler运输公司

Butler运输公司管理人员想估计司机每天的行驶时间。

image

通过散点图的观察，我们可以先用简单线性回归模型来描述每天行驶的时间(y)和每天行驶的里程(x)之间的关系。利用计算机得出： $\hat y=1.27+0.0678x_1$
其中F为15.81，对应的p-值为0.004<0.05，所以我们拒绝原假设 $H_0:\beta_1=0$ 。这是一个不错的结果，但是管理人员希望考虑第二个自变量去解释应变量中剩余的变异性。

管理人员把运送货物的次数( $x_2$ )加入到自变量。得到回归方程 $\hat y=-0.869+0.0611x_1+0.923x_2$

image

15.2.2 关于回归系数解释的注释

简单线性回归：我们把 $b_j$ 看作是当自变量变化1个单位时，应变量y变化程度的一个估计。
多元回归分析：当所有其它自变量保持不变， $b_j$ 可以看作对应 $x_j$ 变化1个单位时，应变量y变化程度的一个估计。

15.3 多元判定系数

$SST=\sum(y_i-\bar y)^2$ 总的平方和
$SSR=\sum(\hat y_i-\bar y)^2$ 回归平方和
$SSE=\sum(y_i-\hat y_i)^2$

关系： $SST=SSR+SSE$
上述的计算很困难，我们可以使用计算机得到。

自变量个数	SST	SSR	SSE
一个	23.9	15.871	8.029
两个	23.9	21.601	2.299

可以看到不同自变量下，两个自变量在SSR中贡献更多，得到了更好的拟合。

多元判定系数：
$R^2=\frac{SSR}{SST}$
理解：应变量y中的变异性能被估计的多元回归方程解释的比例。

这个判定系数可以再上图计算机的结果中，看R-Sq，修正后的为R-Sq(adj)（sq为平方，adj为adjust修正后的）

由于自变量个数增加，判定系数也会增加，我们使用下面的方法来修正。
修正多元判定系数
$R_A^2=1-(1-R^2)\frac{n-1}{n-p-1}$ （p为自变量数目，n为观测值数目）

当 $R^2$ 数值比较小，而模型的自变量数目多，则修正后可能变负数。这个时候Minitab会调整为0.

15.4 模型的假定

关于多元回归模型 $y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots +\beta_px_p+\epsilon$ 的误差项 $\epsilon$ 的假定：

误差项 $E(\epsilon)=0$ ， $E(y)$ 是给定所有自变量后的所有可能出现的值的期望。
对于自变量 $x_1$ , $x_2$ , $\cdots$ , $x_p$ 的所有值， $\epsilon$ 的方差( $\sigma^2$ )都是相同的。
$\epsilon$ 是相互独立的，对于自变量 $x_1$ , $x_2$ , $\cdots$ , $x_p$ 的一组特定值对应一个误差项 $\epsilon$ 。
误差项 $\epsilon$ 服从正态分布，这就意味着模型中 $y=\hat y+\epsilon$ 由于 $\hat y$ 预测值在一组自变量下是一定的， $\epsilon$ 服从正态分布，那么y的真实值也是服从正态分布的。

举例： $E(y)=\beta_0+\beta_1x_1+\beta_2x_2$

image

E(y)

是一个平面，叫响应曲面。
响应变量=应变量

15.5 显著性检验

在简单线性回归中t检验和F检验在原假设被拒绝时给出同样的结论，即 $\beta_1 \neq 0$ 。而在多元回归中。

F检验用于确定应变量和所有自变量之间是否存在一个显著性关系，称作总体的显著性检验。
如果F检验显示模型总体的显著性，那么用t检验来确定每单个自变量是否为一个显著的自变量。称作单个的显著性检验。

15.5.1 F检验

F检验的假设： $H_0:\beta_1=\beta_2=\cdots=\beta_p=0$ , $H_a:$ 至少有一个参数不为0

概念回忆：均方= $\frac{平方和}{自由度}$
自由度：总平方和n-1，回归平方和SSR为p个自由度，误差平方和SSE为n-p-1个自由度。
因此：均方回归 $MSR=\frac{SSR}{p}$ ，均方误差 $MSE=\frac{SSE}{n-p-1}$
其中MSE给出了误差项 $\epsilon$ 方差 $\sigma^2$ 的无偏估计量。如果 $H_0$ 成立，MSR也会给出 $\sigma^2$ 的无偏估计量。但如果拒绝 $H_0$ 则MSR会高估 $\sigma^2$ 。

总体显著性的F检验：

假设： $H_0:\beta_1=\beta_2=\cdots=\beta_p=0$ , $H_a:$ 至少有一个参数不为0
检验统计量： $F=\frac{MSR}{MSE}$
拒绝法则：
- p-值法：如果p-值 $\leq \alpha$ ,则拒绝 $H_0$
- 临界值法：如果 $F \geq F_{\alpha}$ ，则拒绝 $H_0$
  其中， $F_{\alpha}$ 代表分子自由度为p，分母自由度为n-p-1时，F分布上侧面积为 $\alpha$ 的F值。

回到Butler公司的案例，利用Minitab计算出 $F=\frac{MSR}{MSE}=\frac{10.8}{0.328}=32.9$

image

计算得到F=32.9，分子分母自由度分别为2和7。的上侧面积小于0.01，则我们拒绝 $H_0$ 。同样的临界值法算出上侧面积为0.01的F=9.55，也可以得到同样的结论。

MSE是对 $\epsilon$ 方差( $\sigma^2$ )的无偏估计。则 $s=\sqrt{MSE}=0.573$ （Butler公司案例）

一般的方差分析表（ANOVA）：

image

15.5.2 t检验

t检验帮助我们确定每一个参数的显著性。
单个参数显著性的t检验：

对任一个参数 $\beta_i$ 的假设： $H_0:\beta_i=0$ , $H_a:\beta_i \neq 0$
检验统计量： $t=\frac{b_i}{s_{b_i}}$
拒绝法则：
- p-值法：如果p-值 $\leq \alpha$ ，则拒绝 $H_0$
- 临界值法：如果 $t\leq -t_{\alpha/2}$ 或者 $t\geq t_{\alpha/2}$ ，则拒绝 $H_0$

其中， $t_{\alpha/2}$ 是自由度为n-p-1时，使t分布的上侧面积为 $\alpha/2$ 的t值。（要看t值的正负）

回到Butler公司，求得 $b_1=0.061135$ , $s_{b_1}0.009888$ ， $b_2=0.9234$ , $s_{b_2}=0.2211$
计算得到t分别为6.18和4.18。对应p-值为0.000和0.004（p值是由单侧面积乘2得到）。则我们拒绝两个 $H_0$ ，认为两个参数都是显著的。
当然也可以用临界值法。

15.5.3 多重共线性

在多元回归分析中，往往自变量和自变量也存在联系，比如当我们计算行驶里程( $x_1$ )和运送次数( $x_2$ )的相关系数 $r_{x_1x_2}=0.16$ 。我们把自变量之间的相关性称为多重共线性。

当我们把自变量变为：行驶里程( $x_1$ )和油耗( $x_2$ )。可能在t检验中出现不能拒绝 $H_0:\beta_1=0$ 。这可能是因为 $x_2$ 已经在模型里了，导致 $x_1$ 不再有显著呃贡献。

综上所述：当总体显著性的F检验表明有显著关系时，可能得到单个参数没有一个是显著的不等于0。只有当自变量之间的相关性非常小才能回避这个问题。

经验：当相关系数绝对值>0.7，多重共线性可能称为一个潜在的问题。

15.6 应用估计的回归方程进行估计和预测

在14章说明了，对于给定的自变量，y的期望值的点估计和y的一个个别值得点估计都是 $\hat y=b_0+b_1x$ ，在多元回归分析中同样如此。

问题：

对所有运货汽车，行驶100英里，运送2次的情况下，求汽车平均行驶时间的置信区间。
对特定运货汽车，行驶100英里，运送2次的情况下，求汽车行驶时间的预测区间。

利用估计的回归方程 $\hat y=-0.869+0.0611x_1+0.923x_2$ 计算得到在 $x_1=100$ , $x_2=2$ 时， $\hat y=7.09$ 。后续的计算用计算机软件即可，下图时Minitab的示例：

image

注意：预测区间往往比置信区间的范围更大。也就是说预测的精准度相比更低。

15.7 分类自变量

15.7.1 一个例子：约翰逊过滤股份公司

我们希望预测客户提出水过滤系统的维修时间。

应变量：维修时间
自变量：上次维修到这次保修的时间差( $x_1$ )，故障类型( $x_2$ )

我们利用预测的回归模型： $y=\beta_0+\beta_1x_1+\epsilon$ 算出 $x_1$ 和y的简单线性回归。发现R-sq=53.4%表明 $x_1$ 只能解释维修时间变异性的53.4%。

image

我们引入自变量

x_2=\begin{cases}0,& 如果故障维修类型是机械的\\1, &如果故障维修类型是电子的 \end{cases}

在回归分析中，

x_2

是虚拟变量或指标变量。
我们把多元回归模型写成：

y=\beta_0+\beta_1x_1+\beta_2x_2+\epsilon

利用Minitab计算得到 $\hat y=0.93+0.388x_1+1.26x_2$

image

在0.05的显著水平下，p-值为0.001，我们认为回归关系是显著的。

15.7.2 解释参数

当已知机械故障类型时，可以分别计算两个预测的回归方程：

image

15.7.3 更复杂的分类变量

当分类变量有k个水平，则需要定义k-1个虚拟变量。每个虚拟变量只能为0或1。
举例：复印机制造商的销售数量

应变量：销售数量
自变量：销售地区（A、B、C），

image

设置方式，全为0代表一个分类，其中仅有一个为1代表一个分类。这样k个分类，刚好需要k-1个虚拟变量。
对应的回归方程如下：

image

总结：分类变量对于线性回归相当于时同一斜率下，上下平移一定举例。

15.8 残差分析

第i次观测的标准化残差： $\frac{y_i-\hat y_i}{s_{y_i-\hat y_i}}$ （分母为残差的标准差）
第i次观测的残差的标准差： $s_{y_i-\hat y_i}=s\sqrt{1-h_i}$ （ $h_i$ 代表第i次观测的杠杆率）

利用计算机我们可以轻松计算：

image

图中反映的标准化残差都在 $\pm 2$ 之间，因此没有理由怀疑误差项 $\epsilon$ 是正态分布的假定。
当然也可以用正态概率图。

15.8.1 检测异常值

一般来说，如果数据集存在一个或以上的异常值，将导致估计的标准误差s增加。从而使得第i次观测的残差的标准差 $s_{y_i-\hat y_i}$ 增加。这就导致在标准化残差中分母变大，让原本大于2的值小于2了。那么这个标准化残差规则就失效了。
我们可以用学生化删除残差的标准化残差，来解决这个问题。

15.8.2 学生化删除残差和异常值

设 $s_{(i)}$ 表示从数据集中删除了第i次观测值后得到的估计的标准误差。如果我们用 $s_{(i)}$ 代替 $s_{y_i-\hat y_i}=s\sqrt{1-h_i}$ 中的 $s$ ，这样的到的标准化残差称为学生化删除残差如果第i次观测是异常值，那么 $s_{(i)}$ 将小于 $s$ 。所以第i次观测的学生化删除残差的绝对值大于标准化残差的绝对值。也就是说，学生化删除残差可以检测出标准化残差不能检测出的异常值。

image

我们利用t分布来确定学生化删除残差是否表明存在异常值。p表示自变量个数，n表示观测值个数。此时，误差平方和自由度为 $(n-1)-p-1=6$ 在自由度为6双侧分位数 $t_{0.025}=2.447$
当有学生化删除残差的绝对值大于2.447即为异常值，本表中显示无异常值。

15.8.3 有影响的观测值

前面讲到如何利用杠杆率来识别有影响的观测值。也可以用经验法则： $h_i>3(p+1)/n$ 来识别有影响的观测值。

image

15.8.4 利用库克举例测度识别有影响的观测值

如图所示，最后一个观测值的杠杆率0.91>0.75(杠杆率的临界值)，所以这个观测值被识别出来是一个有影响的观测值。

image

但是我们看到散点图，在图中两个回归方程没有明显区别。尽管杠杆率认为最后一个是异常值。

image

库克距离测度，利用第i次观测的杠杆率 $h_1$ 和第i次观测的残差 $(y_i-\hat y_i)$ 来确定这个观测值是否是一个有影响的观测值。
$D_i=\frac{(y_i-\hat y_i)^2}{(p+1)s^2}\left[\frac{h_i}{(1-h_i)^2}\right]$
其中，p代表自变量个数，s代表估计的标准误差。

经验准则： $D_i>1$ 时，表明第i次观测值是一个有影响的观测值。

15.9 logistic 回归

例子：银行希望建立一个估计回归方程，符合条件的信用卡申请用户应变量y=1，拒绝批准的y=0。利用logistic回归就能估计批准使用的信用卡的概率。

例子：Simmons经营的妇女服饰连锁店，想通过邮寄广告册（内含满200-50的优惠券）的方式来增加销量。但是广告册成本高，所以想通过下面两个变量来判断顾客是否会消费200及以上的金额。

在Simmons的年消费支出
是否有Simmons信用卡

现在抽取样本容量n=100，其中有信用卡和无信用卡的各占50.优惠券如果被使用，赋值为1，否则为0。

image

15.9.1 logistic回归方程

logistic回归方程：
$E(y)=\frac{e^{\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p}}{1+e^{\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p}}$

logistic回归中 $E(y)$ 被解释为概率：
$E(y)=P(y=1|x_1,x_2,\cdots,x_p)$

image

15.9.2 估计logistic回归方程

估计的logistic回归方程：
$\hat y=P(y=1|x_1,x_2,\cdots,x_p)的估计=\frac{e^{b_0+b_1x_1+b_2x_2+\cdots+b_px_p}}{1+e^{b_0+b_1x_1+b_2x_2+\cdots+b_px_p}}$

回到Simmons商店的例子：

image

利用Minitab的二进制logistic回归程序计算模型参数

\beta_0,\beta_1,\beta_2

的估计值。对应

b_0=-2.15,b_1=0.34,b_2=1.10

image

然后就可以使用公式判断特定的一组自变量(

x_1,x_2

)使用优惠券的概率了。

15.9.3 显著性检验

总体显著性检验
- 假设： $H_0:\beta_1=\beta_2=0$ , $H_a:$ 至少有一个参数不等于零
- 检验统计量：G检验统计量服从自由度为模型中自变量个数的 $\chi^2$ 分布。（图15-13底部）
单个自变量显著性检验：
- 假设： $H_0:\beta_1=0$ , $\beta_1 \neq 0$
- 检验统计量： $z_i=b_i/s_{b_i}$ （服从标准正态分布）（图15-13中间的spending和card，两个p-值都小于0.05）

15.9.4 管理上的应用

算出不同自变量组合的概率，如下图

image

筛选出合适的概率进行邮递广告册即可。

15.9.5 解释logistic回归方程

由于自变量与y=1是非线性方程，但可以利用机会比率的概念间接解释这个关系。
有利于一个时间发生的机会比( $=\frac{P(y=1)}{P(y=0)}$ )：被定义为事件将要发生的概率与该事件将不会发生的概率的比。
机会比率：度量了当一组自变量中只有一个自变量增加了一个单位时，对机会比的影响。
$机会比率=\frac{odds_1}{odds_0}$
其中 $odds_1$ 是该组自变量的一个增加了一个单位时，y=1的机会比( $odds_1$ )除以没有变化时y=1的机会比( $odds_0$ )。

回到Simmons的例子，信用卡顾客年消费2000美元( $x_1=2,x_2=1$ ),无信用卡顾客年消费2000美元( $x_1=2,x_2=0$ )。
对应的 $odds_1点估计值=\frac{P(y=1|x_1=2,x_2=1)}{1-P(y=1|x_1=2,x_2=1)}=0.6946$ , $odds_0的点估计值=\frac{P(y=1|x_1=2,x_2=0)}{1-P(y=1|x_1=2,x_2=0)}=0.2315$ ;则估计的机会比率 $=\frac{0.6946}{0.2315}=3.00$
结论：前一个顾客使用优惠券的机会比是后一个顾客使用消费券的机会的3倍。（不代表y的值是3倍。）

我们回到下图，看到Odds Ratio对于spending和card分别是1.41和3.00

image

spending的1.41表示3000美元的顾客使用优惠券的机会比是消费2000美元的顾客使用消费券的机会比的1.41倍。同理4000是3000的1.41倍。
card的3.00表示有信用卡的顾客使用优惠券的机会比是无信用卡的顾客使用优惠券的机会比的3倍。
上述都是针对自变量增加1个单位的机会比变化。每个自变量都能写成： $机会比率=e^{\beta_1}$
那么：
- 估计的机会比率 $=e^{b_1}=e^{0.341643}=1.41$
- 估计的机会比率 $=e^{b_1}=e^{1.09873}=3$

那么现在我们就可以求得消费5000美元顾客使用优惠券的概率是2000美元顾客使用优惠券概率的倍数。
- c=5-2=3
- $e^{c\beta_1}=e^{3 \times 0.341643}=e^{1.0249}=2.79$
则消费5000美元顾客使用优惠券的概率是2000美元顾客使用优惠券概率的2.79倍。

一般来说软件还会给出机会比率的95%的置信区间。且机会比率大于1，说明自变量增加对结果是正影响。

15.9.6 对数机会比（logit）变换

对数机会比： $g(x_1,x_2,\cdots,x_p)=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p$
估计的对数机会比： $\hat g(x_1,x_2,\cdots,x_p)=b_0+b_1x_1+b_2x_2+\cdots+b_px_p$

估计的logistic回归方程： $\hat y=\frac{e^{\hat g(x_1,x_2,\cdots,x_p)}}{1+e^{\hat g(x_1,x_2,\cdots,x_p)}}$

链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App，操作更方便哦

第十五章多元回归