参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)
第十四章 简单线性回归
用统计方法来建立一个表示变量之间的相互关系的方程,这种统计方法称为回归分析。
应变量(dependent variable):被预测的变量(y)
自变量(independent variable):用来预测应变量的一个或多个变量(x)
本章讨论简单线性回归:一个自变量,一个应变量。
14.1 简单线性回归模型
例子:Armand比萨饼连锁店想探究学校附近的门店的学生人数(x)与连锁店销售收入(y)之间的关系。
14.1.1 回归模型和回归方程
描述y如何依赖于x和误差项的方程被称为回归模型
简单线性回归模型:
其中和称为模型参数,是一个随机变量,称为模型的误差项。
回到Armand比萨饼连锁店的总体可以看作若干子总体组成的集合。如8000名学生的门店构成一个子总体。那么每一个子总体都有一个值的分布。每一个自总体都有一个期望值。描述期望值如何依赖于的方程称为回归方程。
简单线性回归方程:
也可以写成:
14.1.2 估计的回归方程
通常,我们只能把样本统计量和作为总体参数和的估计量。
估计的简单线性回归方程:
14.2 最小二乘法
最小二乘法(least squares method):是利用样本数据建立估计的回归方程的一种方法。
为了让估计的回归直线能对样本数据有一个好的拟合,我们希望观测值和预测值之前的差要小。
最小二乘法就是让和预测值之间的离差平方和达到最小的方法,求得和
即最小二乘法准则:min
估计的回归方程的斜率和轴截距:
经过计算得到:
于是估计的回归方式:
14.3 判定系数
估计的回归方程是否很好地你和了样本数据。判定系数(coefficient of determination)为估计的回归方程提供了一个拟合优度的度量。
称为第i个残差,残差或误差的平方和是用最小二乘法最小化的量
误差平方和,
经过下图的计算得到
总的平方和:
经过下图的计算,得到SST=15730
回归平方和:
SST、SSR和SSE之间的关系:
- SST:总的平方和
- SSR:回归平方和
- SSE:误差平方和
我们可以把SSR理解为SST被解释的部分,SSE理解为SST未被解释的部分。三者知二求一。
判定系数:
在0~1之间,为1时称作完全拟合,如Armand比萨饼连锁店的例子:
理解:可以把理解为总平方和中能被估计的回归方程解释的百分比。即季度销售收入变异性的90.27%能被学生人数和销售收入之间的线性关系所解释。
相关系数(correlation coefficient)的值介于-1~1之间。为-1、1和0分别代表完全负向的线性关系、完全正向的线性关系、没有线性关系。
样本相关系数:
这里的符号指的是正负。如ARmand比萨饼连锁店,可以得出结论人数和销售额有强的正向线性关系。
总结:
- 相关系数的适用范围被限制在两变量之间存在线性关系的情况
- 判定系数对非线性关系以及多个变量的相关关系都适用。(适用范围广)
- 实际应用中,在社会科学问题中低于0.25,但是也令人满意;自然科学问题中常常大于0.6,有时大于0.9。具体应用要看场景。
14.4 模型的假定
回归分析中的显著性检验是以对误差项的下列假定为依据进行的。
- 误差项是一个平均值或期望为0的随机变量,
- 对所有值,的方差都是相同的,用表示的方差。
即对所有值,的方差都是相等的。 - 的值是相互独立的。每个特定的与对应的与别的值对应的不相关。
- 对所有值,误差项是一个正态分布的随机变量。这也意味着:因为是的一个线性函数,对所有的值,也是一个正态分布的随机变量。
14.5 显著性检验
的期望值是关于的一个线性函数:。
- 为0,则不存在线性关系
- 不为0,则存在线性关系
我们需要做一个假设检验,来判定是否为0
14.5.1 的估计
残差平方和SSE是实际观测值关于估计的回归直线变异性的度量。均方误差
因为,所以
由于计算SSe需要估计两个参数(和),所以SSE的自由度为n-2
均方误差(的估计量)
估计的标准误差
14.5.2 t检验
要存在线性关系,必须。假设:,
再Armand比萨饼连锁店的例子中,我们不断地抽取10家店作为样本。可以得到更多估计地回归方程。
地抽样分布
- 期望值:
- 标准差:
- 分布形式:正态分布
由于未知,我们可以用估计值代入,得到的估计的标准差:
简单线性回归显著性的t检验
假设:,
检验统计量:
拒绝法则:
- p-值法:若p-值,则拒绝
- 临界值法:若或者,则拒绝
其中,自由度为n-2,这里是上侧面积为的t值。
在Armand比萨饼店的例子中:,,此时p-值远远小于0.01,所以拒绝认为销售收入和学生人数存在显著关系。
14.5.3 的置信区间
这个置信区间的置信系数,为自由度为n-2时,t分布上侧面积为的t值。
例如:Armand比萨饼连锁的例子,令置信系数,
此时,我们也可以通过置信区间来对的显著性进行t检验,由于的假设值时0,而0不在置信区间里,所以我们也可以拒绝
14.5.4 F检验
在检验回归方程显著性时:
- 如果只有一个自变量,F检验和t检验都能有一致的结论。
- 如果有两个及以上的自变量时,F检验只能被用来检验回归方程总体的显著关系。
F检验的基本原理:基于简历的两个独立的估计量。已知MSE时的一个估计量,如果成立,则回归平方和SSR除以自由度就给出了的另一个独立的估计量,被称为来自于回归的均方,简称均方回归(MSR)
其中回归自由度等于模型中自变量的个数
本章中回归模型只有一个自变量,所以
简单线性回归显著性的F检验
- 假设:,
- 检验统计量:
- 拒绝法则:
- p-值法:,拒绝
- 临界值法:,拒绝
其中,是分子自由度为1,分母自由度为n-2时,F分布上侧面积为的F值。如果不成立,MSE仍然是的一个无偏估计量,而MSR会高估。如果成立,则MSR和MSE都是无偏估计量,比值趋向于1。
可以用ANOVA表来简练地概括方差分析地运算过程。
14.5.5 关于显著性检验解释的几点注意
拒绝,只能说明x和y存在显著性关系,但不能说明有因果关系。
要做出因果关系,需要别的理论上的充分证据。
-
证实x和y有统计显著性关系,但并不能确定时线性关系;只能说观测值范围内相关。
利用估计的回归方程可以对观测值范围内的x值进行预测。但是超出范围的要谨慎考虑。
14.6 应用估计的回归方程进行估计和预测
- 表示自变量x的一个给定值
- 表示时,应变量y的可能值,是一个随机变量。
- 表示当时,应变量y的期望值
- 表示的点估计值,或者叫预测值。
14.6.1 区间估计
置信区间是对x的一个给定值,y的平均值的一个区间估计。
预测区间是对x的一个给定值,对应y的一个新的观测值。也即y的一个个别值进行预测的一个区间估计。
预测区间的边际误差较大。
14.6.2 y的平均值和置信区间
要计算是如何接近真实的平均值,我们需要估计的方差。
方差点估计值:
标准差点估计值:
的置信区间
其中,为置信系数,为自由度n-2时,使t分布的上侧面积的t值。
回到Armand比萨饼连锁店,已知,自由度为n-2=8,在有10000名学生时,,边际误差
因此置信水平为95%的置信区间估计为:
特殊情况:当,的估计的标准差最小。在这种情形下:
这也就意味着,当时,能得到y的平均值最精确的估计量。如下图。
14.6.3 y的一个个别值得预测区间
当我们想要预测时,季度销售收入的预测值为
这个预测值和x=10的所有店铺的季度销售收入的平均值得点估计值是相同得。(这句话不太明白)
为了建立预测区间,当,y得一个预测值得方差由以下两部分组成。
- 关于平均值的方差,它的估计量由给出。
- 利用估计的方差,它的估计量由给出。
当时,应变量y的预测值是,我们用表示的预测值的估计的方差,计算方式如下:
:
其中,为置信系数;为自由度为n-2时,t分布上侧面积为的t值。
回到Armand比萨饼店,当x=10时,,,边际误差
预测区间比置信区间更宽,当越接近时,置信区间和预测区间就约精确。形状如下图所示:
14.7 计算机解法
书上介绍的Minitab
14.8 残差分析:证实模型假定
第i次观测的残差:
回到本章第四节,我们对中误差项的假定如下:
- 对所有的x值,的方差()都是相同的,
- 的值相互独立
- 服从正态分布
基于这个假定,才能使用t检验和F检验来确定x和y之间的关系是否显著,置信区间和置信区间的估计。残差提供了有关的最重要的信息。
残差分析就是确定误差项的假定是否成立的重要步骤。许多残差分析都是对残差图形的仔细考察基础上完成的,下面介绍这四种残差图。
14.8.1 关于x的残差图
自变量的残差图:
- 横轴:
- 纵轴:残差
如Armand比萨饼连锁店的关于自变量x的残差图如下:
我们看Armand比萨饼连锁店的残差图,感觉和a比较像,因此我们通过目测得到结论:残差图没有提供足够的证据,让我们对回归模型所作的假定表示怀疑。
14.8.2 关于的残差图
- 横轴:应变量预测值
- 纵轴:残差值
这个图和关于x的残差图模式相同,不过这个残差图主要针对的时由多个自变量的多元回归分析。
14.8.3 标准化残差
第个残差的标准差:
其中,代表第个残差的标准差;s代表估计的标准误差。
第个观测的标准化残差:
回到Armand比萨饼连锁店的例子,下表为标准化残差的计算过程和关于自变量x的标准化残差图:
标准化残差图能对随机误差项服从正态分布的假定提供一种直观的人事。如果假定满足,那么标准化残差的分布看起来也应该服从一个标准正态分布。即95%的标准化残差介于-2~2之间,所以我们没理由怀疑服从正态分布的假定。
14.8.4 正态概率图 (这一节看不懂,需要重看)
正态概率图是确定误差项服从正态分布的假定成立的另一个方法。
先介绍正态分数的概念,假设在一个标准正态分布中,我们随机抽取10个数,并且反复进行。然后把每个样本中的10个数从小到大排序,那么每个样本中最小值是一个随机变量,称作一阶顺序统计量。
统计学家已经证明,来自样本容量为10的样本,一阶顺序统计量的期望值为-1.55,这个期望值被称作正态分数。如下图10个顺序统计量对应10个正态分数。(一般n个观测值组成的数据集,就有n个顺序统计量和n个正态分数)(这个地方看不懂)
14.9 残差分析:异常值和有影响的观测值
本节介绍如何利用残差分析识别异常值或特别有影响的观测值。
14.9.1 检测异常值
如下图,有一个异常值。通常意味着数据错误(修正)或违背了模型假定的情形(保留)。
一般根据散点图就能探明异常值。
14.9.2 检测有影响的观测值
有时,个别观测值对我们得到的回归结果产生一个强影响,称作有影响的观测值,
有影响的观测值可能是一个异常值(y值与去十有相当大的偏离),也可能是一个远离自变量x平均值的观测值,也可能两者共同决定。
遇到的解决方法:
- 检查观测值的采集过程是否出问题
- 如果为有效观测值,那我们需要进一步认识x和y的关系。
自变量是极端值的观测值被称为高杠杆率点,第次观测的杠杆率(表示):
我们可以计算上表第7个观测值的杠杆率:,对于简单线性回归情形,在Minitab中如果则将会被识别称具有高杠杆率的观测值,此时满足。会在右图的Unusual Observations标出。
有影响的观测值是由于大的残差和高杠杆率的交互作用产生的。识别时只要考虑下面两方面就能判断。
- 大的残差
- 高杠杆率
链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦