高中政治课上,大家一定都听过,唯物辩证法中讲,万事万物都处于普遍的联系之中。
从数据分析的角度看,所有事物之间存在着两种关系:函数关系和统计关系。
函数关系是指两事物之间存在着一种一一对应的关系,当一个X确定,对应的变量Y也可以随之完全确定(即有唯一值)。比如乘车计费,里程数和费用之间,当行驶的里程确定,也可以得到唯一确定的收费数。
然而现实生活中,事物之间并不全都是一一对应的关系,因此另一种统计关系也普遍存在。统计关系就是这种非一一对应的关系。这些事物之间存在着某种非确定关系,变量关系研究就是为了分析确认事物之间的关系情况。
针对变量关系研究方法,包括了相关关系研究以及影响关系研究,大致将常用分析方法归纳为:相关分析,线性回归分析,Logistic回归分析,SEM结构方程
1 相关分析
(1)指标解读
从相关分析方法角度看,其并不区分X和Y,但从实际意义上看,通常是研究X和Y的相关关系。
(2)分析步骤
① 在相关分析之前,建议可使用散点图直观查看数据之间的关系情况。
② 判断是否有关系(有*号则表示有关系,否则表示无关系);
③ 接着判断关系为正相关或者负相关(相关系数大于0为正相关,反之为负相关);
④ 最后判断关系紧密程度(通常相关系数大于0.4则表示关系紧密)
2 回归分析
线性回归分析是一种研究X对于Y的影响关系的分析方法。问卷研究中最为常见,多数情况下可以使用线性回归分析进行假设验证。
(1)指标解读
(2)分析步骤
① 首先分析模型拟合情况,即通过R平方值分析模型拟合情况,以及可对VIF值进行分析,判断模型是否存在共线性问题【共线性问题可使用岭回归或者逐步回归进行解决】;
② 写出模型公式(可选);
③ 分析X的显著性;如果呈现出显著性(P值小于0.05或0.01);则说明X对Y有影响关系,接着具体分析影响关系方向;
④ 结合回归系数B值,对比分析X对Y的影响程度(可选);
⑤ 对分析进行总结。
3 Logistic回归
Logistic回归分析也用于研究影响关系,即X对于Y的影响情况,此处涉及的Y值是定类数据。其与线性回归分析区别在于,线性回归分析的因变量Y属于定量数据,而Logistic回归分析的因变量Y属于分类数据。
(1)Logistic回归分类
结合Y值的具体情况,Logistic回归分析共分为三种,分别是二元Logistic回归分析,多元无序Logistic回归分析和多元有序Logistic回归分析。分类情况如下表所示。
在问卷研究中,二元Logistic回归分析的使用频率最高,该方法简单易懂,多元无序Logistic回归分析,或者多元有序Logistic回归分析相对较为复杂,并且在具体分析时较难描述和理解。本部分仅对二元Logistic回归分析进行说明。
(2)指标解读1
分析步骤:
第一:首先对P值进行分析,如果该值小于0.05,则说明模型有效;反之则说明模型无效;
第二:AIC和BIC值用于多次分析时的对比;此两值越低越好;如果多次进行分析,可对比此两个值的变化情况,综合说明模型构建的优化过程;
第三:其余指标为中间计算过程值,基本无意义。
(3)指标解读2
这个表格用于研究X对于Y的影响关系情况,表格中有意义的指标信息包括:P值,回归系数,OR值和R Pseudo R²。其它指标包括标准误,Z值,95%CI值意义相对较小。
二元Logit分析的步骤:
第一:对模型整体情况进行说明,比如对R方值进行描述,以及列出模型公式;
第二:逐一分析X对于Y的影响情况;如果X对应的P值小于0.05则说明X会对Y产生影响关系,此时可结合OR值进一步分析影响幅度。
第三:总结分析结果。
其他说明
Y对应的数字一定只能为0和1;如果不是,可以使用‘数据编码’功能设置;
如果模型预测准确率较低,需要多次进行分析对比,找出最优的模型结果;
如果X是定类数据,此时需要对X进行虚拟(哑)变量设置。
如果X的个数非常多(比如超过10个),此时需要进行甄别选择出有意义的X(比如使用方差分析或者卡方分析,选出X与Y有显著差异的X放入二元logit回归模型中)。