本文以SPSSAU系统为例,针对线性回归的常见问题进行汇总说明。
关于线性回归的分析思路及操作步骤,可阅读下方链接文章:
①问题一:SPSSAU多元线性回归在哪儿?
【通用方法】--【线性回归】。
当考察一个自变量对因变量的影响称为一元线性回归,多于一个自变量的情况称为多元线性回归。
②问题二:控制变量如何放置?
控制变量指可能干扰模型的项,比如年龄,学历等基础信息。从软件角度来看,并没有“控制变量”这样的名词。“控制变量”就是自变量,所以直接放入“自变量X”框中即可。
③问题三:自变量为定类数据如何分析?
如果自变量X为定类数据,一般作为控制变量(可能对模型有干扰因而放入的项)放入模型,但并不对其进行分析。如果一定要分析,此时应该进行虚拟变量(也称哑变量)。
使用【数据处理】--【生成变量】里的哑变量设置后再放入。
了解哑变量相关理论,可阅读下方链接文章:
④问题四:数据里有多个Y,线性回归Y只能放一个
线性回归模型中要求只有一个因变量,一个或多个自变量。
如果是同一个维度的题,因变量超过1个,可以使用SPSSAU【数据处理】--【生成变量】里的平均值功能。将多个Y合并成一个整体,再进行分析。
如果是不同维度的指标可以将因变量一个一个单独进行分析。或用路径分析、结构方程模型进行分析。
⑤问题五:线性回归有效样本量不足,需要多少样本量?
有效样本不足是指分析时,可以进行分析的样本量低于方法需要的样本量。解决方法是加大样本量。一般来说,至少要求样本量起码是变量数的5-10倍,结果更具备参考意义。
⑥问题六:相关分析显示正相关,回归分析显示负相关,如何解释?
相关分析是只简单考虑两个变量之间的关系,分析时不考虑其他控制变量的影响。
回归分析则是综合所有进入模型的自变量对因变量的结果而成的,在控制了其他进入回归方程的变量之后得到的影响关系。
所以得出结果不一致也非常正常。当相关分析、线性回归结果出现以下的矛盾情况:
①回归分析存在影响关系,但是却没有相关关系。此时建议以‘没有相关关系作为结论’。
②有负向影响关系,但却是正向相关关系。此时建议以‘有相关关系但没有回归影响关系作为结论’。
⑦问题七:回归结果看标准化还是非标准化?
标准化回归系数是消除了量纲影响后的回归系数,可以用来比较各个自变量的“重要性大小”。
如果目的在于预测模型,一般使用非标准化回归系数。
⑧问题八:线性回归因变量不在样本问题中?
有时候由于问卷设计问题,导致直接缺少了Y(没有设计对应的问卷题项),建议可以考虑将X所有题项概括计算平均值来表示Y。(使用“ 生成变量”的 平均值功能)
如果问卷中并没有设计出Y对应的题项,没有其它办法可以处理。
⑨问题九:逐步回归与分层回归、线性回归的区别,结果不一致怎么解释?
逐步回归是多元线性回归中一种选择自变量的方法。分别把每一个变量都选入模型中,每次都保留系数显著水平最高的变量,剔除不显著的变量,通过多次的选入和剔除最终得到系数的显著的回归方程。适合自变量个数较多时使用。
分层回归本质是线性回归,区别在于分层回归可分为多层,主要用于模型的对比。
如果出现逐步回归、分层回归与线性回归结果不一致的情况,主要是用于选入模型的自变量不同导致。逐步回归会让系统自动识别出有影响的自变量X,最终得到的模型与线性回归中,自己分析的结果很可能出现不一致的情况。
最终以哪个结果为准,应结合专业知识和研究目的选择。比如某个核心研究项很重要,在逐步回归结果中没有体现,此时更应选择其他方法进行研究。
以上就是今天分享的内容,更多干货内容可登录SPSSAU官网查看。