大师兄的应用回归分析学习笔记(三):一元线性回归(二)

大师兄的应用回归分析学习笔记(二):一元线性回归(一)
大师兄的应用回归分析学习笔记(四):多元线性回归(一)

四、回归方程的显著性检验

  • 当我们得到一个实际问题的经验回归方程\hat y = \hat\beta_0 + \hat\beta_1 x后,还不能马上就用它去做分析和预测,需要运用统计方法对回归方程进行检验。
  • 在检验时,经常要做正态性假设\epsilon_i \sim N(0,\delta^2)
1. t检验
  • 在回归分析中,t检验用于检验回归系数的显著性。
  • 检验原假设:H_0:\beta_1=0
  • 备择假设:H_1:\beta_1\neq 0
  • 回归系数的显著性检验就是要检验自变量x对因变量y的影响程度是否显著,。
  • 如果原假设H_0成立,则因变量y与自变量x之间并没有真正的线性关系,即x的变化对y没有影响。
  • 已知:\hat\beta_1 \sim N(\beta_1,\frac{\delta^2}{L_{xx}}),当原假设H_0:\beta_1=0成立,有\hat\beta_1 \sim N(0,\frac{\delta^2}{L_{xx}})
  • 此时\hat\beta_1在零附近波动,构造t统计量t = \frac{\hat\beta_1}{\sqrt{\hat\delta^2/L_{xx}}} = \frac{\hat\beta_1 \sqrt{L{xx}}}{\hat\delta}式中\hat\delta^2 = \frac{1}{n-2}\sum^n_{i=1}e^2_i = \frac{1}{n-2}\sum^n_{i=1}(y_i - \hat y_i)^2\delta^2的无偏估计,称\hat\delta为回归标准差。
  • 可以看出,t统计量就是回归系数的最小二乘估计值除以其标准差的样本估计值
  • 当原假设H_0:\beta_1=0成立时,t统计量服从自由度为n-2的t分布。
  • 给定显著性水平\alpha
  • 双侧检验的临界值为t_{\alpha/2}
  • |t|\geq t_{\alpha/2}时,拒绝原假设,认为\beta_1的显著不为零,因变量y对自变量x的一元线性回归成立。
  • |t|< t_{\alpha/2}时,接受原假设,认为\beta_1为0,因变量y对自变量x的一元线性回归不成立。
2. 统计软件
  • 目前国际上通用的统计软件有多种,其中使用最多的时SPSS、SAS和R这三种。

  • SPSS:

  • 优点:完全菜单化、操作界面优化、输出结果美观,在统计专业和非统计专业都有广泛的应用。
  • 缺点:功能基本固定。
  • SAS:
  • 优点:功能更强大。
  • 缺点:没有菜单化、使用相对困难,软件费用更高。
  • R是由一些志愿者开发的免费自由统计软件:
  • 优点:内容丰富、更新迅速、可以自由编程灵活分析
  • 缺点:没有菜单化、输出的界面不够美观
  • 同一种统计方法可能有多个包合函数实现,各有各有特色和不足。
  • 个软件也开始注重联合使用,比如在SPSS中安装R插件。
3. F检验
  • F检验也用于检验线性回归方程的显著性,F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。
  • 平方和分解式:\sum^n_{i=1}(y_i-\bar y)^2 = \sum^n_{i=1}(\hat y_i-\bar y)^2 + \sum^n_{i=1}(y_i-\hat y)^2
  • 总离差平方和(SST, S_总, L_{yy}, Sum of Squares for Total):\sum^n_{i=1}(y_i-\bar y)^2
  • 回归平方和(SSR,S_回,Sum of squares for Regression):\sum^n_{i=1}(\hat y_i-\bar y)^2
  • 残差平方和(SSE,S_残,Sum of squares for Error:\sum^n_{i=1}(y_i-\hat y)^2
  • 平方和分解式可以简写为:SST = SSR + SSE
  • SST反映因变量y的波动程度或称不确定性,在建立了y对x的线性回归方程后,SST就分解为SSRSSE两部分:
  • SSR是由回归方程确定的,也就是由自变量x的波动引起的,是能够由自变量解释的部分。
  • SSE是不能由自变量解释的波动,是有x之外的未加控制的因素引起的。
  • 因此SSR越大,回归的效果就越好。
  • F检验统计量如下:F = \frac{SSR/1}{SSE/(n-2)}
  • 在正态假设下,当原假设H_0:\beta_1=0成立时,F服从自由度为(1,n-2)的F分布。
  • 当F值大于临界值F_\alpha(1,n-2)时,拒绝原假设,说明回归方程显著,x和y有显著的线性关系。
  • 也可以根据P值做检验。


4. 相关系数的显著性检验
  • 由于一元线性回归方程讨论的变量x与变量y之间的线性关系,可以用变量x与y之间的相关系数来检验回归方程的显著性。
  • (x_i,y_i)(i=1,2,...,n)(x,y)的n组样本观测值,称r = \frac{\sum^n_{i=1}(x_i-x)(y_i-y)}{\sqrt{\sum^n_{i=1}(x_i - \bar x)^2 \sum^n_{i=1}(y_i - \bar y) ^2}} = \frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}}为x与y的简单相关系数
  • r表示x和y的线性关系的密切程度。
  • 相关系数的取值范围:|r|\leq1
  • 图(a) r=1是极端情况,表示x与y完全正相关。
  • 图(b) r=-1是极端情况,表示x与y完全负相关。
  • 图(c) r=0是极端情况,表示x与y完全不相关。
  • 图(d) |r|<1是极端情况,表示x与y有确定的非线性函数关系(曲线函数关系)。
  • 图(e) 0<|r|<1,表示x与y之间有非确定线性统计关系,正线性相关。
  • 图(f) -1<r<0,表示x与y负线性相关。
  • 表达式:r= \frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}} = \hat \beta_1\sqrt \frac{L_{xx}}{L_{yy}}
  • 可得出结论,一元线性回归的回归系数\hat\beta_1和相关系数r的符号相同。
  • 相关系数的明显缺点是,r1接近1的程度与数据组数n有关,容易造成假象:
  • 当n较小时,相关系数的绝对值容易接近1;
  • 当n较大时,相关系数的绝对值容易偏小。
5. 三种检验的关系
  • 回归系数的t检验回归方程的F检验相关系数的显著性检验这三种检验之间存在一定关系。
  • 对一元线性回归而言,这三种检验的结果完全一致:
  • 可以证明,回归系数的t检验相关系数的显著性检验完全等价。
  • F统计量则是t统计量的平方。
  • 但是对于多元线性回归,这三种检验所考虑的问题不同,所以并不等价,是三种不同的检验。
6. 决定系数
  • 总离差平方和回归平方和所占的比重越大,则线性回归效果越好,这说明回归直线与样本观测值的拟合优度越好,反之则说明回归直线与样本观测值拟合的不理想。
  • 回归平方和总理差平方和之比定义为**决定系数(coefficient of determination) **,记为r^2
  • r^2 = \frac{SSR}{SST} = \frac{\sum^n_{i=1}(\hat y_i - \overline y)^2}{\sum^n_{i=1}(y_i - \overline y)^2} = \frac{L^2_{xy}}{L_{xx}L_{yy}} = (r)^2
  • 决定系数r^2是反映回归直线与样本观测值拟合优度的相对指标,是因变量的变异中能用自变量解释的比例。
  • 决定系数r^2的值在0~1之间,越接近1说明拟合优度越好,需要注意以下方面:
  • 当样本较小时,即使得到一个较大的决定系数,也很可能是虚假现象。为此,可以结合样本量和自变量个数,对决定系数做调整,计算调整的决定系数。
  • 即使样本量不小,决定系数很大,也不能肯定自变量与因变量之间的关系就是线性的,因为有可能曲线回归的效果更好。
  • 当计算出一个很小的决定系数时,不论样本大小,都应该尝试改进回归的效果,例如增加自变量,改用曲线回归等。

五、残差分析

  • 一个线性回归方程通过了t检验或F检验,只是表明变量x与y之间的线性关系是显著的,但不能保证数据拟合的很好,也不能排除由于意外原因而导致的数据不完全可靠,比如有异常值出现、周期性因素干扰等。
  • 只有当与模型中的残差项有关的假定满足时,才能放心运用回归模型。
  • 因此,在利用回归方程做分析和预测前,应该用残差图帮助诊断回归效果样本数量的质量,检查模型是否满足基本假定,以便对模型做进一步的修改。
1. 残差的概念与残差图
  • 残差是实际观测值y与通过回归方程给出的回归值之差,残差e_i可以看作误差项\epsilon_i的估计值,e_i = y_i - \hat y = \epsilon_i = y_i - \beta_0 - \beta_1x_i
  • 以自变量x作横轴,以残差作纵轴,将相应的残差点花在直角坐标系上,可以得到残差图。


  • (a) 所有残差在e=0附近随机变化,并在变化幅度不大的一个区域内,说明一个回归模型满足所给出的基本假定。
  • (b) 表明y的观测值的方差并不相同,而是随着x的增大而增大。
  • (c) 表明y和x之间的关系并非线性关系,而是曲线关系,可能存在自相关,或需要用另外的曲线方程拟合样本观测值y。
  • (d) 蜘蛛网现象,表明y存在自相关。
2. 有关残差的性质
  • 性质1E(e_i) = 0
  • 证明:E(e_i) = E(y_i) - E(\hat y_i) = (\beta_0 + \beta_1x_i) - (\beta_0 + \beta_1x_i)=0
  • 性质2var(e_i) =[1 - \frac{1}{n} - \frac{(x_i - \overline x)^2}{L_{xx}}]\delta^2 = (1-h_{ii})\delta^2
  • 其中:h_{ii} = \frac{1}{n} + \frac{(x_i - \overline x)^2}{L{xx}},0 < h_{ii} < 1被称为杠杆值
  • x_i靠近\overline x时,h_{ii}的值接近0,相应的残差方差大。
  • 反之h_{ii}的值接近1,相应的残差方差大。
  • 也就是说靠近\overline x的点相应的残差方差较大,反之残差方差较小,这是因为远离\overline x的点数目必然较少,回归线容易接近到这样的少数点。
  • 性质3:残差满足约束条件\sum^n_{i=1}e_i = 0, \sum^n_{i=1}x_ie_i=0
  • 表明残差e_1,e_2,...,e_n是相关的,不是独立的。
3. 改进的残差
  • 在残差分析中,一般认为超过\pm2\overline\delta 或 \pm3\overline\delta的残差为异常值。
  • 考虑到普通残差e_i,e_2,...,e_n的方差不等,用e_i做判断和比较会带来一定的麻烦,因此引入标准化残差学生化残差的概念。
  • 标准化残差:ZRE_i = \frac{e_i}{\hat \delta}
  • 标准化残差使残差具有可比性,|ZRE_i| > 3的相应观测值即判定为异常值。
  • 但没有解决方差不等的问题。
  • 学生化残差:SRE_i = \frac{e_i}{\hat \delta\sqrt{1-h_{ii}}}
  • 学生化残差进一步解决了方差不等的问题,因此在寻找异常值时,用学生化残差优于普通残差。
  • 学生化残差的构造公式类似于t检验公式。

六、回归系数的区间估计

  • 当我们用最小二乘法得到\beta_0,\beta_1的点估计后,在实际应用中往往还希望给出回归系数的估计精度,即给出置信水平为1-\alpha的置信区间。
  • 置信区间的估值越短,说明估值\hat \beta_0,\hat \beta_1\beta_0,\beta_1越接近,估值越精确。
  • 在实际应用中,主要关心回归系数\hat \beta_1的精度,\beta_1的置信度为1-\alpha的置信区间为\hat\beta - t_{\alpha/2}\frac{\hat \delta}{\sqrt{L_{xx}}}, \hat\beta + t_{\alpha/2}\frac{\hat \delta}{\sqrt{L_{xx}}}

七、预测和控制

  • 建立模型最重要的应用就是预测控制
1. 单值预测
  • 单值预测使用单个值作为因变量新值的预测值。
  • 建立回归方程\hat y = \hat \beta_0 + \hat \beta_1 x_i,当x=x_0时,\hat y = \hat \beta_0 + \hat \beta_1 x_0,即因变量新值y_0 = \beta_0 + \beta_1 x_0 + \epsilon_0的单预测值。
  • 由于y_0是一个随机变量,因此这个预测不能用普通的无偏性衡量。
2. 区间预测
  • 对于预测问题,除了预测值,还需要知道预测的精度,需要做区间预测
  • 找一个区间(T_1,T_2),使对应于某特定的x_0的实际值y_01-\alpha的概率被区间(T_1,T_2)包含,即P(T_1<y_0<T_2) = 1-\alpha
  • 对因变量的区间预测分两种情况:
  • 因变量新值的区间预测
  • 因变量新值的平均值的区间预测
2.1 因变量新值的区间预测
  • 为了给出y_0的置信区间,首先需要求出其估计值\hat y = \hat \beta_0 + \hat \beta_1 x_0的分布。
  • 由于服从正态分布,其期望住为E(\hat y_0) = \beta_0 + \beta_1 x_0
  • 可以求得y_0的置信度为1-\alpha的置信区间为:\hat y\pm t_{\alpha /2}(n-1) \sqrt{1 + h_{00}}\hat\delta
  • 当样本量n较大,|x_0 - \overline x|较小时,h_{00}接近0,y_0的置信度为95%的置信区间近似为\hat y_0 \pm 2\hat \delta
  • 由此可以看出:
  • 样本越大,预测精度越高。
  • 采集数据x_1,x_2,...,x_n不能太集中。
  • 在进行预测时,所给定的x_0不能偏离\overline x太大,最准的情况是x_0 = \overline x,自变量观测之外的范围预测精度较差。
2.2 因变量新值的平均值的区间预测
  • 除了因变量单个新值的置信区间,另一种情况是因变量新值的平均值的区间估计。
  • E(y_0)的点估计仍为\hat y_0 = \hat \beta_0 + \hat \beta_1 x_0
  • 区间估计为\hat y_0 \pm t_{\alpha/2}(n-2)\sqrt{h_{00}}\hat \delta
3. 控制问题
  • 控制问题相当于预测的反问题,即要求T_1 < y < T_2
  • 在统计学中,通过控制自变量x的值,以1-\alpha的概率保证把目标值y控制在T_1 < y < T_2中,即P(T_1<y<T_2) = 1-\alpha , 0<\alpha<1
  • 可以求出x的取值区间:
  • \hat \beta_1 >0时:\frac{T_1 + 2\hat \delta - \hat \beta_0}{\hat \beta_1} < x < \frac{T_2 - 2\hat \delta - \hat \beta_0}{\hat \beta_1}
  • \hat \beta_1 <0时:\frac{T_2 - 2\hat \delta - \hat \beta_0}{\hat \beta_1} < x < \frac{T_1 + 2\hat \delta - \hat \beta_0}{\hat \beta_1}
  • 控制问题的应用要求因变量x与自变量y之间有因果关系,经常在工业生产的质量控制中使用。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,002评论 6 509
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,777评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,341评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,085评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,110评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,868评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,528评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,422评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,938评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,067评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,199评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,877评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,540评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,079评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,192评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,514评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,190评论 2 357

推荐阅读更多精彩内容