1、什么是回归分析?
回归分析是研究自变量X和因变量Y之间数量变化关系的一种分析方法,主要是通过建立因变量Y和影响他的自变量Xi(i1,2,3...)之间的回归模型,衡量自变量Xi对因变量Y的影响能力,进而可以用来预测因变量Y的发展趋势。
相关分析和回归分析的联系:
都是研究及测度两个或两个以上变量之间关系的方法。一般是先进行相关分析,计算相关系数,然后在建立回归模型,最后用回归模型进行推算或预测。
相关分析和回归分析的区别:
先关分析研究的是随机变量,不区分自变量和因变量;回归分析研究的变量要定义出自变量和因变量,并且自变量是确定的普通变量,因变量是随机变量。
相关分析主要描述变量之间相关关系的密切程度;回归分析不仅仅可以揭示变量X对变量Y的影响程度,还可以根据回归模型进行预测。
回归模型主要包括线性回归和非线性回归。线性回归有分为简单线性回归和多重线性回归;非线性回归一般需要通过对数转化等方式转化为线性回归的形式进行研究。
2、线性回归分析步骤
1)根据预测目标,确定自变量和因变量
围绕业务问题,明确预测目标,根据经验和常识或过往数据等初步确定自变量和因变量
2)绘制散点图,确定回归模型类型
绘制散点图,初步判断自变量和因变量之间是否基友线性相关关系,同时进行相关分析,判断相关程度和方向,从而确立回归模型的类型
3)估计模型参数,建立回归模型
最小二乘法进行模型参数的估计,建立回归模型
4)对回归模型就行检验
通过对真个模型及各个参数的统计显著性检验,逐步优化和最终确立回归模型
5)利用回归模型进行预测
模型通过检验后,应用到新的数据中,进行预测
一、简单线性回归分析简介
简单线性回归也称之为一元线性回归,就是模型中只有一个自变量,他主要用来处理一个自变量与一个因变量之间的线性关系。
模型为:Y=a+bX+ε
Y:因变量;
X:自变量;
a:常数,也就是截距;
b:回归系数,也就是斜率;
ε:随机误差,即随机变量对因变量产生的影响。
什么是最小二乘法?
最小二乘法又叫做最小平方法,通过最小化误差的平方和寻找数据的最佳函数匹配。
一是将误差最小化,二是将误差最小化的方法是将误差的平方和最小化。“平方”有称之为“二乘”,用平方的方法是要规避负数对计算的影响。
最小二乘法在回归模型上的应用,就是要似的观测点和估计点之间的距离的平方和达到最小,距离最近,也就是使得尽可能多的观测点落在或者更加靠近这条拟合出来的直线上。
第一步:根据预测目标,确定自变量和因变量
“广告费用”作为自变量,“销售额”最为因变量,评估广告对销售额的具体影响。
第二步:绘制散点图,确定回归模型类型
结论:两个变量之间存在明显的线性相关关系
第三步:估计模型参数,简历回归模型
【统计】界面中,“估算值”的作用是估算出回归系数,要勾选。
“模型拟合”的作用是输出判定系数R的平方
【选项】界面,一定要勾选“在方程中包括常量”,目的是输出拟合直线的截距a。
由于是简单线性回归,方法选择“输入”即可,因为只有两个变量,具体的区别在下一篇“多重线性回归分析”里具体作出说明。
第四步:对回归模型进行检验
这张表说的是简单线性回归模型建立过程的相关信息。
自变量是广告费用,因变量是销售额,自变量的步进方法是输入。
相关系数R:解释变量之间的相关性,R=0.816>0.8,为高度正向相关关系。
判定系数R方:也叫拟合优度或决定系数,表示拟合得到的模型能解释因变量变化的百分比,R方越接近1,表示回归模型拟合效果越好。本例中R方为0.666表示自变量“广告费用”能解释因变量“销售额”模型变化的66.6%的数据,模型拟合效果一般,尚可接受。如果是多重线性回归模型则看调整后的R方。
标准估算的误差:反映了建立的模型预测因变量的精度,在对比多个回归模型的拟合效果时,常会比较该指标,值越小,说明拟合效果越好。
这张表的主要作用是通过F检验来判断回归模型的回归效果,即检验因变量和自变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当。
只要看F和显著性P,因为F还需要查看(F分布临界值表),所以可直接用显著性P得出结果。
0<=显著性P<=0.1,则表明结果具有极其显著的统计学意义;
0.1<显著性P<=0.5,则表明结果具有显著的统计学意义;
显著性P>0.5,则表明结果不具有显著的统计学意义。
这个表主要用与回归模型的描述和回归系数的显著性检验。
简单线性回归模型:Y=377+14.475X
显著性P=0<0.01,说明回归系数b具有极其显著的统计学意义。
第五步:利用回归模型进行预测
1、数据较少时,手动计算即可
2、数据较多时,SPSS自动计算,方法如下:
在【保存】选项里勾选“未标准化”
这样就可以在元数据中增加一个新的变量PRE-1表示结果。