第十四章 简单线性回归

参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)

第十四章 简单线性回归

用统计方法来建立一个表示变量之间的相互关系的方程,这种统计方法称为回归分析
应变量(dependent variable):被预测的变量(y)
自变量(independent variable):用来预测应变量的一个或多个变量(x)

本章讨论简单线性回归:一个自变量,一个应变量。

14.1 简单线性回归模型

例子:Armand比萨饼连锁店想探究学校附近的门店的学生人数(x)与连锁店销售收入(y)之间的关系。

14.1.1 回归模型和回归方程

描述y如何依赖于x和误差项的方程被称为回归模型

简单线性回归模型:y=\beta_0+\beta_1x+\epsilon
其中\beta_0\beta_1称为模型参数,\epsilon是一个随机变量,称为模型的误差项。

回到Armand比萨饼连锁店的总体可以看作若干子总体组成的集合。如8000名学生的门店构成一个子总体。那么每一个子总体都有一个y值的分布。每一个自总体都有一个期望值。描述期望值E(y)如何依赖于x的方程称为回归方程。

简单线性回归方程:E(y)=\beta_0+\beta_1x
也可以写成:E(y|x)=\beta_0+\beta_1x

image

14.1.2 估计的回归方程

通常,我们只能把样本统计量b_0b_1作为总体参数\beta_0\beta_1的估计量。

估计的简单线性回归方程:\hat y=b_0+b_1x

14.2 最小二乘法

最小二乘法(least squares method):是利用样本数据建立估计的回归方程的一种方法。

image

image

为了让估计的回归直线能对样本数据有一个好的拟合,我们希望观测值y_i和预测值\hat y_i之前的差要小。

最小二乘法就是让y_i和预测值\hat y_i之间的离差平方和达到最小的方法,求得b_0b_1
最小二乘法准则:min\sum(y_i-\hat y_i)^2
估计的回归方程的斜率和y轴截距
b_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}
b_0=\bar y-b_1\bar x

image

经过计算得到:
b_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}=\frac{2840}{568}=5
b_0=\bar y-b_1\bar x=130-5\times14=60
于是估计的回归方式:\hat y=60+5x
image

14.3 判定系数

估计的回归方程是否很好地你和了样本数据。判定系数(coefficient of determination)为估计的回归方程提供了一个拟合优度的度量。
y_i-\hat y_i称为第i个残差,残差或误差的平方和是用最小二乘法最小化的量
误差平方和SSE=\sum(y_i-\hat y_i)^2
经过下图的计算得到SSE=1530

image

总的平方和SST=\sum (y_i-\bar y)^2
经过下图的计算,得到SST=15730

image

回归平方和SSR=\sum (\hat y_i-\bar y)^2

image

SST、SSR和SSE之间的关系SST=SSR+SSE

  • SST:总的平方和
  • SSR:回归平方和
  • SSE:误差平方和

我们可以把SSR理解为SST被解释的部分,SSE理解为SST未被解释的部分。三者知二求一。

判定系数r^2=\frac{SSR}{SST}
r^2在0~1之间,为1时称作完全拟合,如Armand比萨饼连锁店的例子:r^2=\frac{SSR}{SST}=\frac{14200}{15730}=0.9027
理解:可以把r^2理解为总平方和中能被估计的回归方程解释的百分比。即季度销售收入变异性的90.27%能被学生人数和销售收入之间的线性关系所解释。

相关系数(correlation coefficient)的值介于-1~1之间。为-1、1和0分别代表完全负向的线性关系、完全正向的线性关系、没有线性关系。
样本相关系数:r_{xy}=(b_1的符号)\sqrt{判定系数}=(b_1的符号)\sqrt{r^2}
这里的符号指的是正负。如ARmand比萨饼连锁店r_{xy}=\sqrt{0.9027}=0.9501,可以得出结论人数和销售额有强的正向线性关系。

总结:

  • 相关系数的适用范围被限制在两变量之间存在线性关系的情况
  • 判定系数对非线性关系以及多个变量的相关关系都适用。(适用范围广)
  • 实际应用中,在社会科学问题中r^2低于0.25,但是也令人满意;自然科学问题中r^2常常大于0.6,有时大于0.9。具体应用要看场景。

14.4 模型的假定

回归分析中的显著性检验是以对误差项\epsilon的下列假定为依据进行的。

  1. 误差项\epsilon是一个平均值或期望为0的随机变量,E(\epsilon)=0
    E(\beta_0)=\beta_0 E(\beta_1)=\beta_1 E(y)=\beta_0+\beta_1x
  2. 对所有x值,\epsilon的方差都是相同的,用\sigma^2表示\epsilon的方差。
    即对所有x值,y的方差都是相等的。
  3. \epsilon的值是相互独立的。每个特定的x与对应的\epsilon与别的x值对应的\epsilon不相关。
  4. 对所有x值,误差项\epsilon是一个正态分布的随机变量。这也意味着:因为y\epsilon的一个线性函数,对所有的x值,y也是一个正态分布的随机变量。
image

14.5 显著性检验

y的期望值是关于x的一个线性函数:E(y)=\beta_0+\beta_1x

  • \beta_1为0,则不存在线性关系
  • \beta_1不为0,则存在线性关系

我们需要做一个假设检验,来判定\beta_1是否为0

14.5.1 \sigma^2的估计

残差平方和SSE是实际观测值关于估计的回归直线变异性的度量。均方误差MSE=\frac{SSE}{自由度}
因为\hat y_i=b_0+b_1x_i,所以SSE=\sum(y_i-\hat y_i)^2=\sum(y_i-b_0-b_1x_i)^2
由于计算SSe需要估计两个参数(\beta_0\beta_1),所以SSE的自由度为n-2

均方误差(\sigma^2的估计量)
s^2=MSE=\frac{SSE}{n-2}

估计的标准误差
S=\sqrt{MSE}=\sqrt{\frac{SSE}{n-2}}

14.5.2 t检验

要存在线性关系,必须\beta_1 \neq 0。假设:H_0:\beta_1=0,H_a:\beta_1 \neq 0

再Armand比萨饼连锁店的例子中,我们不断地抽取10家店作为样本。可以得到更多估计地回归方程。
b_1地抽样分布

  • 期望值:E(b_1)=\beta_1
  • 标准差:\sigma_{b_1}=\frac{\sigma}{\sqrt{\sum(x_i-\bar x)^2}}
  • 分布形式:正态分布

由于\sigma未知,我们可以用估计值s代入,得到b_1的估计的标准差s_{b_1}=\frac{s}{\sum(x_i-\bar x)^2}

简单线性回归显著性的t检验
假设:H_0:\beta_1=0,H_a:\beta_1 \neq 0
检验统计量:t=\frac{b_1}{s_{b_1}}
拒绝法则:

  • p-值法:若p-值\leq \alpha,则拒绝H_0
  • 临界值法:若t\leq -t_{\alpha/2}或者t /geq t_{\alpha/2},则拒绝H_0

其中,自由度为n-2,t_{\alpha/2}这里是上侧面积为\alpha/2的t值。

在Armand比萨饼店的例子中:s_{b_1}=\frac{13.829}{\sqrt{568}}=0.5803t=\frac{b_1}{s_{b_1}}=\frac{5}{0.5803}=8.62,此时p-值远远小于0.01,所以拒绝H_0认为销售收入和学生人数存在显著关系。

14.5.3 \beta_1的置信区间

b_1 \pm t_{\alpha/2}s_{b_1}
这个置信区间的置信系数1-\alphat_{\alpha/2}为自由度为n-2时,t分布上侧面积为\alpha/2的t值。

例如:Armand比萨饼连锁的例子,令置信系数\alpha=0.01t_{0.005}=3.355
b_1 \pm t_{\alpha/2}s_{b_1}=5 \pm3.355\times 0.5803=5\pm 1.95

此时,我们也可以通过置信区间来对\beta_1的显著性进行t检验,由于\beta_1的假设值时0,而0不在置信区间(3.05,6.95)里,所以我们也可以拒绝H_0

14.5.4 F检验

在检验回归方程显著性时:

  • 如果只有一个自变量,F检验和t检验都能有一致的结论。
  • 如果有两个及以上的自变量时,F检验只能被用来检验回归方程总体的显著关系。

F检验的基本原理:基于简历\sigma^2的两个独立的估计量。已知MSE时\sigma^2的一个估计量,如果H_0成立,则回归平方和SSR除以自由度就给出了\sigma^2的另一个独立的估计量,被称为来自于回归的均方,简称均方回归(MSR)
MSR=\frac{SSR}{回归自由度}
其中回归自由度等于模型中自变量的个数

本章中回归模型只有一个自变量,所以MSR=\frac{SSR}{1}=SSR

简单线性回归显著性的F检验

  • 假设:H_0:\beta_1=0,H_a:\beta_1 \neq 0
  • 检验统计量:F=\frac{MSR}{MSE}
  • 拒绝法则:
    • p-值法:p \leq \alpha,拒绝H_0
    • 临界值法:F\geq F_{\alpha},拒绝H_0

其中,F_{\alpha}是分子自由度为1,分母自由度为n-2时,F分布上侧面积为\alpha的F值。如果H_0不成立,MSE仍然是\sigma^2的一个无偏估计量,而MSR会高估\sigma^2。如果H_0成立,则MSR和MSE都是无偏估计量,比值趋向于1。

可以用ANOVA表来简练地概括方差分析地运算过程。


image

14.5.5 关于显著性检验解释的几点注意

  1. 拒绝H_0,只能说明x和y存在显著性关系,但不能说明有因果关系。

  2. 要做出因果关系,需要别的理论上的充分证据。

  3. 证实x和y有统计显著性关系,但并不能确定时线性关系;只能说观测值范围内相关。


    image
  4. 利用估计的回归方程可以对观测值范围内的x值进行预测。但是超出范围的要谨慎考虑。

14.6 应用估计的回归方程进行估计和预测

  • x^*表示自变量x的一个给定值
  • y^*表示x=x^*时,应变量y的可能值,是一个随机变量。
  • E(y^*)表示当x=x^*时,应变量y的期望值
  • \hat y^*=b_)+B_1x^*表示E(y^*)的点估计值,或者叫预测值。

14.6.1 区间估计

置信区间是对x的一个给定值,y的平均值的一个区间估计。
预测区间是对x的一个给定值,对应y的一个新的观测值。也即y的一个个别值进行预测的一个区间估计。
预测区间的边际误差较大。

14.6.2 y的平均值和置信区间

要计算\hat y^*是如何接近真实的平均值E(y^*),我们需要估计\hat y^*的方差。
方差点估计值:s_{\hat y^*}^2=s^2\left[\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}\right]
标准差点估计值:s_{\hat y^*}=s^2\sqrt{\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}}

E(y^*)的置信区间
\hat y^* \pm t_{\alpha/2}s_{\hat y^*}
其中,1-\alpha为置信系数,t_{\alpha/2}为自由度n-2时,使t分布的上侧面积\alpha/2的t值。

回到Armand比萨饼连锁店,已知\alpha/2=0.025,自由度为n-2=8,在有10000名学生时,\hat y^*=110,边际误差t_{\alpha/2}s_{\hat y^*}=2.306\times 4.95=11.415
因此置信水平为95%的置信区间估计为:110 \pm 11.415

特殊情况:当x^*=\bar x\hat y^*的估计的标准差最小。在这种情形下:s_{\hat y^*}=s^2\sqrt{\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}}=s\sqrt{\frac{1}{n}}
这也就意味着,当x^*=\bar x时,能得到y的平均值最精确的估计量。如下图。

image

14.6.3 y的一个个别值得预测区间

当我们想要预测x^*=10时,季度销售收入的预测值为\hat y^*=60+5\times 10=110
这个预测值和x=10的所有店铺的季度销售收入的平均值得点估计值是相同得。(这句话不太明白)

为了建立预测区间,当x=x^*,y得一个预测值\hat y^*得方差由以下两部分组成。

  1. y^*关于平均值E(y^*)的方差,它的估计量由s^2给出。
  2. 利用\hat y^*估计E(y^*)的方差,它的估计量由s_{\hat y^*}^2给出。

x=x^*时,应变量y的预测值是\hat y^*,我们用s_{pred}^2表示y^*的预测值\hat y^*的估计的方差,计算方式如下:
s_{pred}^2=s^2+s_{\hat y^*}^2=s^2+s^2\left[\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}\right]=s^2\left[1+\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}\right]
s_{pred}=s\sqrt{1+\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}}

y^*的预测区间
\hat y^* \pm t_{\alpha/2}s_{pred}
其中,1-\alpha为置信系数;t_{\alpha/2}为自由度为n-2时,t分布上侧面积为\alpha/2的t值。

回到Armand比萨饼店,当x=10时,t_{\alpha/2}=t_{0.025}=2.306,s_{pred}=14.69,边际误差t_{\alpha/2}s_{pred}=2.306 \times 14.69=33.875

预测区间比置信区间更宽,当x^*越接近\bar x时,置信区间和预测区间就约精确。形状如下图所示:

image

14.7 计算机解法

书上介绍的Minitab

14.8 残差分析:证实模型假定

第i次观测的残差y_i-\hat y_i

image

回到本章第四节,我们对y=\beta_0+\beta_1x+\epsilon中误差项\epsilon的假定如下:

  1. E(\epsilon)=0
  2. 对所有的x值,\epsilon的方差(\sigma^2)都是相同的,
  3. \epsilon的值相互独立
  4. \epsilon服从正态分布

基于这个假定,才能使用t检验和F检验来确定x和y之间的关系是否显著,置信区间和置信区间的估计。残差提供了有关\epsilon的最重要的信息。
残差分析就是确定误差项\epsilon的假定是否成立的重要步骤。许多残差分析都是对残差图形的仔细考察基础上完成的,下面介绍这四种残差图。

14.8.1 关于x的残差图

自变量x残差图

  • 横轴:x
  • 纵轴:残差y_i-\hat y_i

如Armand比萨饼连锁店的关于自变量x的残差图如下:


image

image

我们看Armand比萨饼连锁店的残差图,感觉和a比较像,因此我们通过目测得到结论:残差图没有提供足够的证据,让我们对回归模型所作的假定表示怀疑。

14.8.2 关于\hat y的残差图

  • 横轴:应变量预测值\hat y
  • 纵轴:残差值y-\hat y
image

这个图和关于x的残差图模式相同,不过这个残差图主要针对的时由多个自变量的多元回归分析。

14.8.3 标准化残差

i个残差的标准差
s_{y_i-\hat y_i}=s\sqrt{1-h_i}
其中,s_{y_i-\hat y_i}代表第i个残差的标准差;s代表估计的标准误差。h_i=\frac{1}{n}+\frac{(x_i-\bar x)^2}{\sum (x_i-\bar x)^2}

i个观测的标准化残差
\frac{y_i-\hat y_i}{s_{y_i-\hat y_i}}

回到Armand比萨饼连锁店的例子,下表为标准化残差的计算过程和关于自变量x的标准化残差图:


image

image

标准化残差图能对随机误差项\epsilon服从正态分布的假定提供一种直观的人事。如果假定满足,那么标准化残差的分布看起来也应该服从一个标准正态分布。即95%的标准化残差介于-2~2之间,所以我们没理由怀疑\epsilon服从正态分布的假定。

14.8.4 正态概率图 (这一节看不懂,需要重看)

正态概率图是确定误差项\epsilon服从正态分布的假定成立的另一个方法。
先介绍正态分数的概念,假设在一个标准正态分布中,我们随机抽取10个数,并且反复进行。然后把每个样本中的10个数从小到大排序,那么每个样本中最小值是一个随机变量,称作一阶顺序统计量

统计学家已经证明,来自样本容量为10的样本,一阶顺序统计量的期望值为-1.55,这个期望值被称作正态分数。如下图10个顺序统计量对应10个正态分数。(一般n个观测值组成的数据集,就有n个顺序统计量和n个正态分数)(这个地方看不懂)

image

14.9 残差分析:异常值和有影响的观测值

本节介绍如何利用残差分析识别异常值或特别有影响的观测值。

14.9.1 检测异常值

如下图,有一个异常值。通常意味着数据错误(修正)或违背了模型假定的情形(保留)。


image

一般根据散点图就能探明异常值。

14.9.2 检测有影响的观测值

有时,个别观测值对我们得到的回归结果产生一个强影响,称作有影响的观测值

image

有影响的观测值可能是一个异常值(y值与去十有相当大的偏离),也可能是一个远离自变量x平均值的观测值,也可能两者共同决定。
遇到的解决方法:

  1. 检查观测值的采集过程是否出问题
  2. 如果为有效观测值,那我们需要进一步认识x和y的关系。

自变量是极端值的观测值被称为高杠杆率点,第i次观测的杠杆率(h_i表示):
h_i=\frac{1}{n}+\frac{(x_i-\bar x)^2}{\sum(x_i-\bar x)^2}

image

我们可以计算上表第7个观测值的杠杆率:h_7=0.94,对于简单线性回归情形,在Minitab中如果h_i >[6/n,0.99]则将会被识别称具有高杠杆率的观测值,此时h_7满足。会在右图的Unusual Observations标出。
image

有影响的观测值是由于大的残差和高杠杆率的交互作用产生的。识别时只要考虑下面两方面就能判断。

  • 大的残差
  • 高杠杆率

链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容