差异性分析方法汇总整理

在数据研究中，常见的数据关系可以分为四类，分析是相关关系，因果关系、差异关系以及其它。本次所进行研究的关系为差异关系。对于差异性分析方法常见可以分为三类：参数检验、非参数检验以及可视化图形。

非参数检验

非参数检验的选择

对于非参数检验的差异分析方法，大体可以分为两大类一个是卡方检验一个秩和检验。对于卡方检验和秩和检验如何选择，可以参考如图：

接下来对于卡方检验和秩和检验进行一一说明。

2、卡方检验

01、Pearson卡方检验

Pearson卡方检验说明

Pearson卡方检验进行研究两组数据的差异，并且其数据分别为定类变量和定类变量，比如想要研究性别和是否吸烟之间的差异，南方和北方饮食习惯（米和面）的差异等。

Pearson卡方检验数据格式

Pearson卡方检验的数据格式为一个分析项为一列，比如下表中，性别（1代表男，2代表女）为一列，是否吸烟（1不吸烟，2吸烟）为一列，如下：

Pearson卡方检验操作

【实验/医学研究：卡方检验】→【拖拽分析项】→点击开始分析；

Pearson卡方检验结果一般格式

一般结果中会提供均值标准差以及卡方值和p值等。

02、Fisher卡方

fisher卡方检验说明

fisher卡方与pearson卡方类似，研究定类数据和定类数据的差异性。其与pearson卡方检验的区别是如果分析样本量较少（比如小于40），也或者期望频数出现小于5时，或者R*C结构时，也或者为汇总表格数据时使用此方法比较合适。

fisher卡方检验数据格式

fisher卡方格式一般是汇总格式，比如想要研究A药和B要对疗效的差异性，其数据格式一般如下：（ps：A1表格一定是空的）

fisher卡方检验操作

【实验/医学研究：fisher卡方】→【拖拽分析项】→点击开始分析；

fisher卡方检验结果一般格式

会提供期望频数和实际频数的分析结果：

03、分层卡方

分层卡方检验说明

分层卡方也叫CMH检验，研究卡方检验，将干扰因素纳入模型，其中X和Y均是类别变量（一般为二分类），比如研究是否吸烟和是否肥胖的差异关系，将性别（男和女）纳入模型内进行分析，此时可以考虑分层卡方。

分层卡方检验数据格式

分层卡方有两种数据格式，一种是不加权数据格式，一种是加权数据格式：

（1）不加权

X为一列（分类变量），Y为一列（分类变量），分层项为一列。

（2）加权

X为一列（分类变量），Y为一列（分类变量），加权项为一列，分层项为一列。

分层卡方检验操作

【实验/医学研究：分层卡方】→【拖拽分析项】→点击开始分析；

（ps：其中加权项是可选的）

分层卡方检验结果一般格式

一般会提供CMH基本说明，以及分层卡方结果汇总等。

表格说明如下：

04、配对卡方

配对卡方检验说明

配对的定类数据研究差异性，两个变量都为定类数据，且需要数据配对，才可以考虑使用配对卡方进行分析研究，比如研究A方法和B方法对于诊断某病是否有差异（诊断结果分为：阴性和阳性），其中数据为配对数据，此时可以考虑使用配对卡方分析。

配对卡方检验数据格式

配对卡方的数据类型为定类变量，所以有两种类型的数据格式，一种是加权的数据格式，一种是非加权的数据格式：

（1）加权

配对卡方，一般有两列，一个分析项为一列，但是如果是加权格式，加权项为一列，一共有三列。

（2）非加权

如果是非加权的数据格式一个分析项为一列。一共两列，且数据是配对数据。

配对卡方检验操作

【实验/医学研究：配对卡方】→【拖拽分析项】→点击开始分析；

配对卡方检验结果一般格式

一般会提供配对卡方结果以及方法对比，其中如果配对数据的组别为2即配对四表格（2*2），SPSSAU则使用McNemar检验；n*n则使用Bowker检验。

05、卡方拟合优度

卡方拟合优度检验说明

实际数据与预期数据的差异，希望研究数据的实际比例与预期比例是否一致。比如收集100份数据，预期不同性别的比例是4:6，其中搜集的数据为男性为48个女性为52个，进行差异性分析。常用于问卷的选择题中。

卡方拟合优度检验数据格式

卡方拟合优度检验数据格式为一列为一个分析项，一般用于定类数据各项的占比差异情况，一般格式如下：

卡方拟合优度检验操作

【实验/医学研究：卡方拟合优度检验】→【拖拽分析项】→点击开始分析；

卡方拟合优度检验结果一般格式

卡方拟合优度检验一般会提供实际频数，期望频数，残差，实际比例，期望比例，卡方值等。

3、秩和检验

01、MannWhitney检验

MannWhitney检验说明

MannWhitney非参数检验一般研究定类数据和定量数据之间的差异，定类数据一般是两组为二分类变量，比如研究不同性别的薪资水平之间的差异等。

MannWhitney检验数据格式

MannWhitney非参数检验的数据格式一般为两列，一列为组别，一列为分析项，数据格式与独立样本t检验类似，与之不同的是二者的应用条件不一样，具体可以参考文章：

MannWhitney检验操作

【通用方法：非参数检验】→【拖拽分析项】→点击开始分析；

MannWhitney检验结果一般格式

一般结果中会提供中位数以及统计量和p值等。

02、KruskalWallis检验

KruskalWallis检验说明

Kruskal-Wallis非参数检验一般是研究定类变量和定类变量之间的差异性，并且定类变量为多分类变量，比如研究学历和薪资之间是否有显著性差异，学历包括本科以下、本科以及本科以上。其数据格式与单因素方差类似。操作与MannWhitney一致（SPSSAU会自动判断分类变量的分类数进而判断使用MannWhitney还是Kruskal-Wallis），其一般形式如下：

一般结果中会提供中位数以及统计量和p值等。

03、配对样本wilcoxon

配对样本wilcoxon说明

配对样本wilcoxon说明检验一般是研究配对的定量数据之前的差异性，比如研究有无广告和产品的销量之间是否有显著性差异。其数据格式与配对样本t检验类似。其操作为：

其一般形式如下：

一般结果中会提供中位数以及统计量和p值等。

04、单样本wilcoxon

单样本wilcoxon说明

单样本wilcoxon说明检验一般是研究检验数据是否与某个数据有明显的差异，比如研究某地区青少年的身高与140cm是否有差异。其数据格式与单样本t检验类似。其操作为：

其一般形式如下：

一般结果中会提供样本量、25分位数、中位数、75分位数以及统计量和p值等。

05、ridit检验

ridit检验说明

Ridit是研究X与Y的差异，X是定类数据，Y是定距数据，比如研究两种药物对慢性病治疗的作用，其中两种药物为定类数据，治疗作用为定距数据。此时可以考虑使用ridit检验。

ridit检验数据格式

一般有两种数据格式，一个是加权数据格式，一个是不加权数据格式，如果不加权数据格式，一行代表一个研究对象，X为一列，Y为一列，如果是加权的数据格式，比如X有2种情况，Y有4个情况，一种有2*4=8种组合，数据信息只有8种组别的汇总项（即加权项），数据格式如下图（由于上传数据带有数据标签，所以新建一个表格）：

ridit检验操作

【实验/医学研究】→【Ridit实验】然后进行分析；

ridit检验结果一般格式

会提供平均ridit值与95％CI和z值p值等。

06、friedman检验

friedman检验说明

Friedman检验可应用于多组配对或相关数据的秩和校验。比如想要分析8名试验对象在4种不同频率声音刺激的反应率是否存在差别。

friedman检验数据格式

一个分析项为一列，比如上述背景“8名试验对象在4种不同频率声音刺激的反应率是否存在差别。”一个声音频率为一列，如下：

friedman检验检验操作

分析路径为点击【实验/医学研究】→【多样本Friedman】然后进行分析：

friedman检验检验结果一般格式

会提供样本量、25分位数、中位数、75分位数以及统计量和p值等。

三、可视化图形

1、可视化图形的选择

数据类型不同其可视化图形选择不同，比如定类数据和定量数据一般可以使用折线图或者柱形图、条形图等，如果是定类和定类数据一般可以使用堆积柱形图或者条形图。

2、折线图

折线图一般分析定类数据格定量数据的差异，比如分析7月和8月30天每天温度变化（一般多分类数据使用较多）。其可以在SPSSAU可视化中进行操作，一般格式如下：

3、柱形图

一般用长方形的进行表示，也叫长条图，可以用来表示定类数据和定量数据之间的差异，定类变量可以为二分类也可以为多分类，其可以在SPSSAU可视化中进行操作，一般格式如下：

4、堆积柱形图（堆积条形图）

用于分析定类数据和定类数据之前的差异，比如两个分类变量对比差异，想要在一个柱形图或者条形图中进行展示占比。其可以在SPSSAU可视化中进行操作，一般格式如下：

四、案例分析

研究者想要观察两种药物对慢性病治疗的作用，共搜集了3000例数据，试分析两种药物在治疗慢性病方面是否有显著差异。部分数据如下，其中药物中1代表A药物，2代表B药物，疗效中1代表无效，2代表好转，3代表明显好转，4代表控制。研究定类数据和定类数据的差异并且是有序定距的数据，考虑使用ridit检验。

1、分析流程

Step1：数据格式

X有2种情况，Y有4个情况，一种有2*4=8种组合，数据信息只有8种组别的汇总项（即加权项），数据格式如下图（由于上传数据带有数据标签，所以新建一个表格）：

Step2：上传数据与操作

上传结果如下：

【实验/医学研究】→【Ridit实验】然后进行分析

Step3与step4以下分别进行说明。

2、解读分析结果

从分析结果来看z值为-7.07，p值小于0.05，说明不同药物对慢性病的治疗有显著差异性，并且从平均Ridit值中可以看出B药物的平均Ridit值(0.666)会明显高于A药物的平均Ridit值(0.500)。中间过程值是如何计算的呢？

3、指标计算

平均Ridit值

选择A药物进行分析，B药物同理：

由于以最大值作为参照项，所以A药物组别为标准组，ar{R}理论上波动于0-1之间，标准组的ar{R}等于0.5，其它组别都需要参照标准组的R值进行计算。比如B组别：

95％CI

以A药物组为例：

z值

n为该组样本量。

s_{R}^{2}可由两组合并数据进行计算，或者近似法以1/12,进行估计，这里不进行计算，感兴趣的可以自行计算。

除此之外，还可以进一步进行图形查看：

从图形也可以直观看出，B药物的平均Ridit值会明显高于A药物。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,332评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,508评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,812评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,607评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,728评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,919评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,071评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,802评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,256评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,576评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,712评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,389评论 4赞 332
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,032评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,798评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,026评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,473评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,606评论 2赞 350

差异性分析方法汇总整理

非参数检验

三、可视化图形

四、案例分析

推荐阅读更多精彩内容