相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。
回归分析的目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;
按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
应用回归分析时应首先确定变量之间是否存在相关关系,如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。正确应用回归分析预测时应注意:①用定性分析判断现象之间的依存关系;②避免回归预测的任意外推;③应用合适的数据资料;
在回归分析中,要求因变量是随机的,自变量是给定的某个数值,非随机变量;在线性多元回归分析当中,自变量为连续变量,因变量也是连续变量,如果因变量不是连续变量,是类别变量,则必须使用区别分析或者罗吉斯回归分析。
多元线性对数据的要求:
1、对各个自变量水平上的因变量需要呈现正态分布;(在实际分析中,可以通过对因变量的正态检验来得出残差是否为正态分布)
2、因变量的各观察值之间必须是相互独立的(也就是相关性不高或者无)
3、各自变量之间不能有多元共线性关系(也就是各自变量之间不能有较高的相关(相关系数大于0.700))
4、数据可以是任何形态的直线关系;(超重要,如果不是直线,就必须采用曲线回归等非线性模式进行处理,或者将数据转化为线性以后再进行线性回归分析)
5、各残差之间互相独立假定,各自变量产生的残差间相关为零,误差项与自变量之间相互独立。
6、残差的等分散性假定,也就是方差齐性假定,也就是残差的标准误在各个样本观察值上保持稳定。
一元线性回归分析:
R平方就是拟合优度指标,代表了回归平方和(方差分析表中的0.244)占总平方和(方差分析表中的0.256)的比例,也称为决定系数。你的R平方值为0.951,表示X可以解释95.1%的Y值,拟合优度很高,尤其是在这么大的样本量(1017对数据点)下更是难得。系数表格列出了自变量的显著性检验结果(使用单样本T检验)。截距项(0.000006109)的显著性为0.956(P值),表明不能拒绝截距为0的原假设;回归系数(X项)为0.908,其显著性为0.000(表明P值小于0.0005,而不是0。想看到具体的数值,可以双击该表格,再把鼠标定位于对应的格子),拒绝回归系数0.908(X项)为0的原假设,也就是回归系数不为0;标准化回归系数用于有多个自变量情况下的比较,标准化回归系数越大,该自变量的影响力越大。由于你的数据仅有一个自变量,因此不需要参考这项结果。
还有几个问题:
R方大于多少表示拟合性好?
F值是指什么?后面的sig.又指什么?
最后一个表可以表明自变量和因变量显著相关吗?
1、一般认为,相关系数达到0.1为小效应(R方0.01),0.3为中等R方0.09),0.5为大(R方0.25),这是针对自然科学的一般界限,不一定适用于你的学科。
2、在线性回归中,F值为方差分析的结果,是一个对整个回归方程的总体检验,指的是整个回归方程有没有使用价值(与随机瞎猜相比),其F值对应的Sig值小于0.05就可以认为回归方程是有用的。注意,这是对多个自变量的总体检验,而不是单个自变量(单个自变量在系数表中,为单样本T检验),由于你的数据只有一个自变量自变量,因此其结果与单变量相同。
3、确实,最后一个表可以表明自变量和因变量显著相关(因为Sig值为0.000).
多元线性回归分析:
方法:在一元回归分析中,方法使用强制输入法就好了,因为只有一个自变量,而在多元回归分析中,就要根据数据来适当选择分析方法。
1、输入(进入):强迫所有变量按照顺序进入回归模型。
2、步进(逐步):应用最广的预测变量方法,它结合了顺向选择法和反向剔除法的优点。
3、除去、
4、后退:将所有自变量放入模型当中,再根据对模型的贡献率来进行筛选,剔除贡献率太小的变量。
5、前进:按照自变量与因变量的密切关系高到低的顺序,一个个将自变量选入回归模型当中,当F检验的值大于内定的标准,则选入。