大师兄的应用回归分析学习笔记(六):多元线性回归(三)
大师兄的应用回归分析学习笔记(八):违背基本假设的情况(一)
七、多元线性回归模型的建立过程
- 上表为中国民航客运量的回归模型,其中:
表示民航客运量(万人)
表示国民收入(亿元)
表示民用汽车拥有量(万辆)
表示铁路客运量(万人)
表示民航航线历程(万公里)
表示来华旅游入境人数(万人)
- 第一步:提出因变量与自变量,收集数据。
- 第二步:相关分析,设定理论模型。
- 用工具获得增广相关阵:
- 从相关阵可以看出,y与5个自变量的相关系数都在0.9以上,说明所选自变量与y高度线性相关,适合做多元线性回归。
- 第三步:对原始数据做回归分析
- 第四步:回归拟合优度诊断
- 得到初步回归方程:
![]()
- 这个回归方程还需要根据以下的各种诊断效果做相应改进:
- 从回归的相对效果看,复相关系数R = 0.998,决定系数
,回归可以减少因变量99.6%的变异,从决定系数看回归方程高度显著。
- 从回归的绝对效果看,回归标准误差的估计值
,而2016年因变量y的水平值已经达到48796,标准误差和水平值相比很小,说明回归效果很好。
- 从方差分析表看,F = 686.43, P值=0,表明回归方程高度显著,说明
整体上对y有高度显著的线性影响。
- 回归系数的显著性检验:虽然自变量整体上对y有显著影响,但是每个自变量对y的显著性却较差。其中
的P值=0.821最大,不显著;
分别为0.254,不显著;
P值在0.05~0.10之间,是弱显著。由此可见,在多元线性回归中,虽然回归方程整体显著性很强,但是并不意味着每个自变量都显著。
- 另外,每个自变量的显著性和这些自变量与因变量y两两之间的简单相关系数的大小并不一致,可能存在共线性。
- 第五步:回归应用
- 因变量新值的点估计为:
![]()
- 当样本较大时,其置信度为95%的近似置信区间仍然可以用
简单计算。
- 第六步:专业背景分析
- 民航客运量y与民用汽车拥有量
、铁路客运量
的简单相关系数为0.990,0.968;而回归方程中
的偏回归系数都是负值,并且不显著,可能是由于自变量之间的多重共线性造成的。
- 一般认为铁路客运量与民航客运量之间应呈负相关关系,但随着我国经济的高速发展,目前铁路运输和民航运输之间并不是恶性的竞争关系。