差异性分析方法汇总整理

在数据研究中,常见的数据关系可以分为四类,分析是相关关系,因果关系、差异关系以及其它。本次所进行研究的关系为差异关系。对于差异性分析方法常见可以分为三类:参数检验、非参数检验以及可视化图形。

非参数检验

非参数检验的选择

对于非参数检验的差异分析方法,大体可以分为两大类一个是卡方检验一个秩和检验。对于卡方检验和秩和检验如何选择,可以参考如图:

接下来对于卡方检验和秩和检验进行一一说明。

2、卡方检验

01、Pearson卡方检验

Pearson卡方检验说明

Pearson卡方检验进行研究两组数据的差异,并且其数据分别为定类变量和定类变量,比如想要研究性别和是否吸烟之间的差异,南方和北方饮食习惯(米和面)的差异等。

Pearson卡方检验数据格式

Pearson卡方检验的数据格式为一个分析项为一列,比如下表中,性别(1代表男,2代表女)为一列,是否吸烟(1不吸烟,2吸烟)为一列,如下:

Pearson卡方检验操作

【实验/医学研究:卡方检验】→【拖拽分析项】→点击开始分析;

Pearson卡方检验结果一般格式

一般结果中会提供均值标准差以及卡方值和p值等。

02、Fisher卡方

fisher卡方检验说明

fisher卡方与pearson卡方类似,研究定类数据和定类数据的差异性。其与pearson卡方检验的区别是如果分析样本量较少(比如小于40),也或者期望频数出现小于5时,或者R*C结构时,也或者为汇总表格数据时使用此方法比较合适。

fisher卡方检验数据格式

fisher卡方格式一般是汇总格式,比如想要研究A药和B要对疗效的差异性,其数据格式一般如下:(ps:A1表格一定是空的)

fisher卡方检验操作

【实验/医学研究:fisher卡方】→【拖拽分析项】→点击开始分析;

fisher卡方检验结果一般格式

会提供期望频数和实际频数的分析结果:

03、分层卡方

分层卡方检验说明

分层卡方也叫CMH检验,研究卡方检验,将干扰因素纳入模型,其中X和Y均是类别变量(一般为二分类),比如研究是否吸烟和是否肥胖的差异关系,将性别(男和女)纳入模型内进行分析,此时可以考虑分层卡方。

分层卡方检验数据格式

分层卡方有两种数据格式,一种是不加权数据格式,一种是加权数据格式:

(1)不加权

X为一列(分类变量),Y为一列(分类变量),分层项为一列。

(2)加权

X为一列(分类变量),Y为一列(分类变量),加权项为一列,分层项为一列。

分层卡方检验操作

【实验/医学研究:分层卡方】→【拖拽分析项】→点击开始分析;

ps:其中加权项是可选的)

分层卡方检验结果一般格式

一般会提供CMH基本说明,以及分层卡方结果汇总等。

表格说明如下:

04、配对卡方

配对卡方检验说明

配对的定类数据研究差异性,两个变量都为定类数据,且需要数据配对,才可以考虑使用配对卡方进行分析研究,比如研究A方法和B方法对于诊断某病是否有差异(诊断结果分为:阴性和阳性),其中数据为配对数据,此时可以考虑使用配对卡方分析。

配对卡方检验数据格式

配对卡方的数据类型为定类变量,所以有两种类型的数据格式,一种是加权的数据格式,一种是非加权的数据格式:

(1)加权

配对卡方,一般有两列,一个分析项为一列,但是如果是加权格式,加权项为一列,一共有三列。

(2)非加权

如果是非加权的数据格式一个分析项为一列。一共两列,且数据是配对数据。

配对卡方检验操作

【实验/医学研究:配对卡方】→【拖拽分析项】→点击开始分析;

配对卡方检验结果一般格式

一般会提供配对卡方结果以及方法对比,其中如果配对数据的组别为2即配对四表格2*2,SPSSAU则使用McNemar检验n*n则使用Bowker检验

05、卡方拟合优度

卡方拟合优度检验说明

实际数据与预期数据的差异,希望研究数据的实际比例与预期比例是否一致。比如收集100份数据,预期不同性别的比例是4:6,其中搜集的数据为男性为48个女性为52个,进行差异性分析。常用于问卷的选择题中。

卡方拟合优度检验数据格式

卡方拟合优度检验数据格式为一列为一个分析项,一般用于定类数据各项的占比差异情况,一般格式如下:

卡方拟合优度检验操作

【实验/医学研究:卡方拟合优度检验】→【拖拽分析项】→点击开始分析;

卡方拟合优度检验结果一般格式

卡方拟合优度检验一般会提供实际频数,期望频数,残差,实际比例,期望比例,卡方值等。

3、秩和检验

01、MannWhitney检验

MannWhitney检验说明

MannWhitney非参数检验一般研究定类数据和定量数据之间的差异,定类数据一般是两组为二分类变量,比如研究不同性别的薪资水平之间的差异等。

MannWhitney检验数据格式

MannWhitney非参数检验的数据格式一般为两列,一列为组别,一列为分析项,数据格式与独立样本t检验类似,与之不同的是二者的应用条件不一样,具体可以参考文章:

MannWhitney检验操作

【通用方法:非参数检验】→【拖拽分析项】→点击开始分析;

MannWhitney检验结果一般格式

一般结果中会提供中位数以及统计量和p值等。

02、KruskalWallis检验

KruskalWallis检验说明

Kruskal-Wallis非参数检验一般是研究定类变量和定类变量之间的差异性,并且定类变量为多分类变量,比如研究学历和薪资之间是否有显著性差异,学历包括本科以下、本科以及本科以上。其数据格式与单因素方差类似。操作与MannWhitney一致SPSSAU会自动判断分类变量的分类数进而判断使用MannWhitney还是Kruskal-Wallis,其一般形式如下:

一般结果中会提供中位数以及统计量和p值等。

03、配对样本wilcoxon

配对样本wilcoxon说明

配对样本wilcoxon说明检验一般是研究配对的定量数据之前的差异性,比如研究有无广告和产品的销量之间是否有显著性差异。其数据格式与配对样本t检验类似。其操作为:

其一般形式如下:

一般结果中会提供中位数以及统计量和p值等。

04、单样本wilcoxon

单样本wilcoxon说明

单样本wilcoxon说明检验一般是研究检验数据是否与某个数据有明显的差异,比如研究某地区青少年的身高与140cm是否有差异。其数据格式与单样本t检验类似。其操作为:

其一般形式如下:

一般结果中会提供样本量、25分位数、中位数、75分位数以及统计量和p值等。

05、ridit检验

ridit检验说明

Ridit是研究X与Y的差异,X是定类数据,Y是定距数据,比如研究两种药物对慢性病治疗的作用,其中两种药物为定类数据,治疗作用为定距数据。此时可以考虑使用ridit检验。

ridit检验数据格式

一般有两种数据格式,一个是加权数据格式,一个是不加权数据格式,如果不加权数据格式,一行代表一个研究对象,X为一列,Y为一列,如果是加权的数据格式,比如X有2种情况,Y有4个情况,一种有2*4=8种组合,数据信息只有8种组别的汇总项(即加权项),数据格式如下图(由于上传数据带有数据标签,所以新建一个表格):

ridit检验操作

【实验/医学研究】→【Ridit实验】然后进行分析;

ridit检验结果一般格式

会提供平均ridit值与95%CI和z值p值等。

06、friedman检验

friedman检验说明

Friedman检验可应用于多组配对或相关数据的秩和校验。比如想要分析8名试验对象在4种不同频率声音刺激的反应率是否存在差别。

friedman检验数据格式

一个分析项为一列,比如上述背景“8名试验对象在4种不同频率声音刺激的反应率是否存在差别。”一个声音频率为一列,如下:

friedman检验检验操作

分析路径为点击【实验/医学研究】→【多样本Friedman】然后进行分析:

friedman检验检验结果一般格式

会提供样本量、25分位数、中位数、75分位数以及统计量和p值等。

三、可视化图形

1、可视化图形的选择

数据类型不同其可视化图形选择不同,比如定类数据和定量数据一般可以使用折线图或者柱形图、条形图等,如果是定类和定类数据一般可以使用堆积柱形图或者条形图。

2、折线图

折线图一般分析定类数据格定量数据的差异,比如分析7月和8月30天每天温度变化(一般多分类数据使用较多)。其可以在SPSSAU可视化中进行操作,一般格式如下:

3、柱形图

一般用长方形的进行表示,也叫长条图,可以用来表示定类数据和定量数据之间的差异,定类变量可以为二分类也可以为多分类,其可以在SPSSAU可视化中进行操作,一般格式如下:

4、堆积柱形图(堆积条形图)

用于分析定类数据和定类数据之前的差异,比如两个分类变量对比差异,想要在一个柱形图或者条形图中进行展示占比。其可以在SPSSAU可视化中进行操作,一般格式如下:

四、案例分析

研究者想要观察两种药物对慢性病治疗的作用,共搜集了3000例数据,试分析两种药物在治疗慢性病方面是否有显著差异。部分数据如下,其中药物中1代表A药物,2代表B药物,疗效中1代表无效,2代表好转,3代表明显好转,4代表控制。研究定类数据和定类数据的差异并且是有序定距的数据,考虑使用ridit检验。

1、分析流程

Step1:数据格式

X有2种情况,Y有4个情况,一种有2*4=8种组合,数据信息只有8种组别的汇总项(即加权项),数据格式如下图(由于上传数据带有数据标签,所以新建一个表格):

Step2:上传数据与操作

上传结果如下:

【实验/医学研究】→【Ridit实验】然后进行分析

Step3与step4以下分别进行说明。

2、解读分析结果

从分析结果来看z值为-7.07,p值小于0.05,说明不同药物对慢性病的治疗有显著差异性,并且从平均Ridit值中可以看出B药物的平均Ridit值(0.666)会明显高于A药物的平均Ridit值(0.500)。中间过程值是如何计算的呢?

3、指标计算

  • 平均Ridit

选择A药物进行分析,B药物同理:

由于以最大值作为参照项,所以A药物组别为标准组,ar{R}理论上波动于0-1之间,标准组的ar{R}等于0.5,其它组别都需要参照标准组的R值进行计算。比如B组别:

  • 95CI

以A药物组为例:

z值

n为该组样本量。

s_{R}^{2}可由两组合并数据进行计算,或者近似法以1/12,进行估计,这里不进行计算,感兴趣的可以自行计算。

除此之外,还可以进一步进行图形查看:

从图形也可以直观看出,B药物的平均Ridit值会明显高于A药物。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容

  • 大家好啊!最近SPSSAU后台有很多小伙伴留言提问,其中有两个问题: 其实上面的问题,主要是想要研究定类数据和定类...
    spssau阅读 2,357评论 0 5
  • 今天将各个模块中,具有代表性的分析方法的数据格式进行一个汇总说明,本文主要介绍以下内容: 一、规范格式说明 1、原...
    spssau阅读 528评论 0 2
  • 一、类型 SPSSAU中卡方检验包括卡方检验、卡方拟合优度、配对卡方、分层卡方。 对于上述四种卡方检验区别如下: ...
    spssau阅读 1,329评论 0 1
  • 无论是科学研究还是统计调查,显著性检验作为判断两个或是多个数据集之间是否存在差异的方法一直被广泛应用于各个科研领域...
    spssau阅读 1,393评论 0 0
  • 一、卡方检验基本说明 有时,在研究中某个随机变量是否服从某种特定的分布是需要进行检验的。可以根据以往的经验或者实际...
    spssau阅读 975评论 1 16