在数据研究中,常见的数据关系可以分为四类,分析是相关关系,因果关系、差异关系以及其它。本次所进行研究的关系为差异关系。对于差异性分析方法常见可以分为三类:参数检验、非参数检验以及可视化图形。
非参数检验
非参数检验的选择
对于非参数检验的差异分析方法,大体可以分为两大类一个是卡方检验一个秩和检验。对于卡方检验和秩和检验如何选择,可以参考如图:
接下来对于卡方检验和秩和检验进行一一说明。
2、卡方检验
01、Pearson卡方检验
Pearson卡方检验说明
Pearson卡方检验进行研究两组数据的差异,并且其数据分别为定类变量和定类变量,比如想要研究性别和是否吸烟之间的差异,南方和北方饮食习惯(米和面)的差异等。
Pearson卡方检验数据格式
Pearson卡方检验的数据格式为一个分析项为一列,比如下表中,性别(1代表男,2代表女)为一列,是否吸烟(1不吸烟,2吸烟)为一列,如下:
Pearson卡方检验操作
【实验/医学研究:卡方检验】→【拖拽分析项】→点击开始分析;
Pearson卡方检验结果一般格式
一般结果中会提供均值标准差以及卡方值和p值等。
02、Fisher卡方
fisher卡方检验说明
fisher卡方与pearson卡方类似,研究定类数据和定类数据的差异性。其与pearson卡方检验的区别是如果分析样本量较少(比如小于40),也或者期望频数出现小于5时,或者R*C结构时,也或者为汇总表格数据时使用此方法比较合适。
fisher卡方检验数据格式
fisher卡方格式一般是汇总格式,比如想要研究A药和B要对疗效的差异性,其数据格式一般如下:(ps:A1表格一定是空的)
fisher卡方检验操作
【实验/医学研究:fisher卡方】→【拖拽分析项】→点击开始分析;
fisher卡方检验结果一般格式
会提供期望频数和实际频数的分析结果:
03、分层卡方
分层卡方检验说明
分层卡方也叫CMH检验,研究卡方检验,将干扰因素纳入模型,其中X和Y均是类别变量(一般为二分类),比如研究是否吸烟和是否肥胖的差异关系,将性别(男和女)纳入模型内进行分析,此时可以考虑分层卡方。
分层卡方检验数据格式
分层卡方有两种数据格式,一种是不加权数据格式,一种是加权数据格式:
(1)不加权
X为一列(分类变量),Y为一列(分类变量),分层项为一列。
(2)加权
X为一列(分类变量),Y为一列(分类变量),加权项为一列,分层项为一列。
分层卡方检验操作
【实验/医学研究:分层卡方】→【拖拽分析项】→点击开始分析;
(ps:其中加权项是可选的)
分层卡方检验结果一般格式
一般会提供CMH基本说明,以及分层卡方结果汇总等。
表格说明如下:
04、配对卡方
配对卡方检验说明
配对的定类数据研究差异性,两个变量都为定类数据,且需要数据配对,才可以考虑使用配对卡方进行分析研究,比如研究A方法和B方法对于诊断某病是否有差异(诊断结果分为:阴性和阳性),其中数据为配对数据,此时可以考虑使用配对卡方分析。
配对卡方检验数据格式
配对卡方的数据类型为定类变量,所以有两种类型的数据格式,一种是加权的数据格式,一种是非加权的数据格式:
(1)加权
配对卡方,一般有两列,一个分析项为一列,但是如果是加权格式,加权项为一列,一共有三列。
(2)非加权
如果是非加权的数据格式一个分析项为一列。一共两列,且数据是配对数据。
配对卡方检验操作
【实验/医学研究:配对卡方】→【拖拽分析项】→点击开始分析;
配对卡方检验结果一般格式
一般会提供配对卡方结果以及方法对比,其中如果配对数据的组别为2即配对四表格(2*2),SPSSAU则使用McNemar检验;n*n则使用Bowker检验。
05、卡方拟合优度
卡方拟合优度检验说明
实际数据与预期数据的差异,希望研究数据的实际比例与预期比例是否一致。比如收集100份数据,预期不同性别的比例是4:6,其中搜集的数据为男性为48个女性为52个,进行差异性分析。常用于问卷的选择题中。
卡方拟合优度检验数据格式
卡方拟合优度检验数据格式为一列为一个分析项,一般用于定类数据各项的占比差异情况,一般格式如下:
卡方拟合优度检验操作
【实验/医学研究:卡方拟合优度检验】→【拖拽分析项】→点击开始分析;
卡方拟合优度检验结果一般格式
卡方拟合优度检验一般会提供实际频数,期望频数,残差,实际比例,期望比例,卡方值等。
3、秩和检验
01、MannWhitney检验
MannWhitney检验说明
MannWhitney非参数检验一般研究定类数据和定量数据之间的差异,定类数据一般是两组为二分类变量,比如研究不同性别的薪资水平之间的差异等。
MannWhitney检验数据格式
MannWhitney非参数检验的数据格式一般为两列,一列为组别,一列为分析项,数据格式与独立样本t检验类似,与之不同的是二者的应用条件不一样,具体可以参考文章:
MannWhitney检验操作
【通用方法:非参数检验】→【拖拽分析项】→点击开始分析;
MannWhitney检验结果一般格式
一般结果中会提供中位数以及统计量和p值等。
02、KruskalWallis检验
KruskalWallis检验说明
Kruskal-Wallis非参数检验一般是研究定类变量和定类变量之间的差异性,并且定类变量为多分类变量,比如研究学历和薪资之间是否有显著性差异,学历包括本科以下、本科以及本科以上。其数据格式与单因素方差类似。操作与MannWhitney一致(SPSSAU会自动判断分类变量的分类数进而判断使用MannWhitney还是Kruskal-Wallis),其一般形式如下:
一般结果中会提供中位数以及统计量和p值等。
03、配对样本wilcoxon
配对样本wilcoxon说明
配对样本wilcoxon说明检验一般是研究配对的定量数据之前的差异性,比如研究有无广告和产品的销量之间是否有显著性差异。其数据格式与配对样本t检验类似。其操作为:
其一般形式如下:
一般结果中会提供中位数以及统计量和p值等。
04、单样本wilcoxon
单样本wilcoxon说明
单样本wilcoxon说明检验一般是研究检验数据是否与某个数据有明显的差异,比如研究某地区青少年的身高与140cm是否有差异。其数据格式与单样本t检验类似。其操作为:
其一般形式如下:
一般结果中会提供样本量、25分位数、中位数、75分位数以及统计量和p值等。
05、ridit检验
ridit检验说明
Ridit是研究X与Y的差异,X是定类数据,Y是定距数据,比如研究两种药物对慢性病治疗的作用,其中两种药物为定类数据,治疗作用为定距数据。此时可以考虑使用ridit检验。
ridit检验数据格式
一般有两种数据格式,一个是加权数据格式,一个是不加权数据格式,如果不加权数据格式,一行代表一个研究对象,X为一列,Y为一列,如果是加权的数据格式,比如X有2种情况,Y有4个情况,一种有2*4=8种组合,数据信息只有8种组别的汇总项(即加权项),数据格式如下图(由于上传数据带有数据标签,所以新建一个表格):
ridit检验操作
【实验/医学研究】→【Ridit实验】然后进行分析;
ridit检验结果一般格式
会提供平均ridit值与95%CI和z值p值等。
06、friedman检验
friedman检验说明
Friedman检验可应用于多组配对或相关数据的秩和校验。比如想要分析8名试验对象在4种不同频率声音刺激的反应率是否存在差别。
friedman检验数据格式
一个分析项为一列,比如上述背景“8名试验对象在4种不同频率声音刺激的反应率是否存在差别。”一个声音频率为一列,如下:
friedman检验检验操作
分析路径为点击【实验/医学研究】→【多样本Friedman】然后进行分析:
friedman检验检验结果一般格式
会提供样本量、25分位数、中位数、75分位数以及统计量和p值等。
三、可视化图形
1、可视化图形的选择
数据类型不同其可视化图形选择不同,比如定类数据和定量数据一般可以使用折线图或者柱形图、条形图等,如果是定类和定类数据一般可以使用堆积柱形图或者条形图。
2、折线图
折线图一般分析定类数据格定量数据的差异,比如分析7月和8月30天每天温度变化(一般多分类数据使用较多)。其可以在SPSSAU可视化中进行操作,一般格式如下:
3、柱形图
一般用长方形的进行表示,也叫长条图,可以用来表示定类数据和定量数据之间的差异,定类变量可以为二分类也可以为多分类,其可以在SPSSAU可视化中进行操作,一般格式如下:
4、堆积柱形图(堆积条形图)
用于分析定类数据和定类数据之前的差异,比如两个分类变量对比差异,想要在一个柱形图或者条形图中进行展示占比。其可以在SPSSAU可视化中进行操作,一般格式如下:
四、案例分析
研究者想要观察两种药物对慢性病治疗的作用,共搜集了3000例数据,试分析两种药物在治疗慢性病方面是否有显著差异。部分数据如下,其中药物中1代表A药物,2代表B药物,疗效中1代表无效,2代表好转,3代表明显好转,4代表控制。研究定类数据和定类数据的差异并且是有序定距的数据,考虑使用ridit检验。
1、分析流程
Step1:数据格式
X有2种情况,Y有4个情况,一种有2*4=8种组合,数据信息只有8种组别的汇总项(即加权项),数据格式如下图(由于上传数据带有数据标签,所以新建一个表格):
Step2:上传数据与操作
上传结果如下:
【实验/医学研究】→【Ridit实验】然后进行分析
Step3与step4以下分别进行说明。
2、解读分析结果
从分析结果来看z值为-7.07,p值小于0.05,说明不同药物对慢性病的治疗有显著差异性,并且从平均Ridit值中可以看出B药物的平均Ridit值(0.666)会明显高于A药物的平均Ridit值(0.500)。中间过程值是如何计算的呢?
3、指标计算
- 平均Ridit值
选择A药物进行分析,B药物同理:
由于以最大值作为参照项,所以A药物组别为标准组,ar{R}理论上波动于0-1之间,标准组的ar{R}等于0.5,其它组别都需要参照标准组的R值进行计算。比如B组别:
-
95%CI
以A药物组为例:
z值
n为该组样本量。
s_{R}^{2}可由两组合并数据进行计算,或者近似法以1/12,进行估计,这里不进行计算,感兴趣的可以自行计算。
除此之外,还可以进一步进行图形查看:
从图形也可以直观看出,B药物的平均Ridit值会明显高于A药物。