一文带你全方位理解卡方检验


一、基本概念:卡方检验

(一)定义

卡方检验主要用于研究定类与定类数据之间的差异关系。一般使用卡方检验进行分析的目的是比较差异性。例如研究人员想知道两组学生对于手机品牌的偏好差异情况。

(二)卡方值

卡方值表示观察值与理论值之间的偏离程度。

卡方值的大小与样本量(自由度)有关。一般来说,卡方值越大越好,但并不准确。比如5000和5010的差异为10;40和50的差异为10,明显后者差异更大。

最终查看卡方值对应的 p 值更准确。

二、卡方检验分类

(一)方法分类

SPSSAU系统中,卡方检验分为【通用方法】中的交叉卡方,以及【医学/研究】模块中的卡方检验配对卡方卡方拟合优度分层卡方五类。

(二)方法对比

1) 交叉卡方

适用于大部分场景之中,满足大部分用户需求,使用频率高,仅使用Pearson卡方,不支持加权数据。

交叉卡方仅输出一个交叉卡方分析结果如下图:

可以看到卡方值为16.667,p =0.000<0.01,所以不同地区的饮食习惯情况呈现出显著性差异

2) 卡方检验

适用于实验医学研究方向,专业性更强,使用频率高。

从上表可知,利用卡方检验(交叉分析)去研究减肥方式对于胆固醇水平共1项的差异关系【独立性】,不同减肥方式样本对于胆固醇水平共1项呈现出显著性(p <0.05)。

总结可知:不同减肥方式样本对于胆固醇水平全部均呈现出显著性差异。

Pearson卡方、yates校正卡方、Fisher卡方三类卡方,具体选择标准如下图

上表格为卡方检验的中间过程值,由于本案例数据为3*2格式,且1 <=E<5 格子的比例大于20%(此处为33.33%),因而最终选择使用yates校正卡方值。

特别备注: Pearson卡方和yates校正卡方完全相同是正常现象,多数情况下二者完全相等】

加权数据

数据格式如下

效应量指标(研究差异幅度情况,效应量值越大说明差异幅度越大,通常情况下效应量小、中、大的区分临界点分别是 0.20,0.50 和 0.80)卡方检验时,通常有5个指标均可表示效应量大小,区别在于使用场合不一样,选择标准如下图:

上表格为效应量指标,由于本案例数据为3*2格式,所以使用Cramer V 研究差异幅度情况。Cramer V =0.47,说明各减肥方式下胆固醇水平差异接近中等水平。

卡方检验多重比较(多重比较得到多个卡方值,比较更加全面,通常在医学研究中使用,且类别数量较少时使用)

卡方检验多重比较指两两类别组合(每个组合共4个数字)重复进行卡方检验; 多重比较的次数=C(X类别个数)*C(Y类别个数),比如X类别为3,Y类别个数为5,则为C(3,2)*C(5,2)=30次;

  • SPSSAU仅针对1Y进行,可通过更换Y的位置实现其它分析项的多重比较,X或Y的选项个数大于10时不进行多重比较;
  • 多重比较时提供的是Pearson卡方检验
  • 多重比较时,检验次数增多会增加一类错误的概率,建议使用校正显著性水平(Bonferroni校正);如果显著性水平为0.05,并且两两比较次数为3次,那么Bonferroni校正显著性水平为0.05/3次=0.0167,即 p 值需要与0.0167进行对比,而不是0.05;

特别提示:多重比较通常在医学研究中使用,且类别数量较少时使用】

趋势卡方检验(Cochran-Armitage 趋势卡方检验(Linear-by-Linear)研究k*2(或2*k)列联表数据的趋势差异关系;通常用于k*2(或2*k)的列联表结构,k为有序定类数据,2指两个类别)

  • 如果 p 值小于0.05则说明k组间呈现出某种趋势变化;
  • 如果 p 值大于0.05则说明k组间不会呈现出趋势变化;
  • SPSSAU默认均提供趋势卡方检验(Linear-by-Linear)结果,但需要注意使用此指标的前提条件。

3) 配对卡方

配对卡方研究配对定类数据间的差异关系,适用于两配对数据的比较,使用频率低,提供McNemar检验与Bowker检验,选择标准如下:

本次配对对比类别数量为2(即配对四表格),因而使用McNemar检验进行研究。配对数据之间呈现0.05水平的显著性(chi=2.000,p=0.022<0.05),意味着配对数据间有着明显的差异性。

总结可知:使用McNemar检验研究A方法共有两种结果和B方法共有两种结果之间的差异性,分析显示配对数据间呈现出显著性差异。

4) 卡方拟合优度检验

卡方拟合优度检验研究定类数据的频数分布是否与期望频数保持一致。

针对性别进行卡方拟合优度检验,研究数据分布是否与期望分布保持一致,从上表可以看出:性别全部均没有呈现显著性(p >0.05),意味着接受原假设(原假设:实际分布比例与预期比例一致),即数据分布与预期一致。

5) 分层卡方

分层卡方研究X与Y之间的差异时,进一步研究是否存在扰动因素项Factor

针对分层卡方,其涉及的理论知识内容,如下表格:

通常情况下,首先查看 "比值比齐性检验",如果其呈现出显著性(p < 0.05),则说明具有混杂因素,即需要考虑分层项,分别查看不同分层项下的数据结果。反之如果没有通过 "比值比齐性检验",即说明没有混杂因素不需要考虑分层项,报告整体的结果即可(包括卡方检验,以及OR值)。

三、卡方检验应用

(一)分析步骤

(1)分析X分别与Y之间是否呈现出显著性(p 值小于0.05或0.01);

(2)如果呈现出显著性,具体对比选择百分比(括号内值),描述具体差异所在;未呈现出显著性则停止分析;

(3)对分析进行总结。

(二)多选题分析中的应用

(1)卡方拟合优度:多选题,检验各选项选择比例是否有显著性差异

从上表可以看出,各选项选择没有显著差异,百分比选择分布较均匀(chi=5.947,p=0.203>0.05)。

(2)Pearson卡方:单选-多选,交叉差异检验

从上表可以看出,性别对于共五项表示的多选题并不会呈现出显著差异性(chi=1.208,p=0.877>0.05)。

(3)Pearson卡方:多选-多选,交叉差异检验

从上表可以看出,两个多选题之间并没有明显的关联关系,百分比选择分布较均匀(chi=0.732,p=1.000>0.05)。

四、数据格式

卡方检验数据格式可分为常规格式加权格式两类。

上述五类卡方检验方法,除交叉卡方外,其余四类卡方检验均支持加权数据格式。

1)常规格式

一行代表一个样本,如果有100个样本即为100行;一列代表一个属性;这类格式最为常见,而且此类数据格式可以做任何的分析。因为其携带着所有最原始的数据信息。

2)加权格式

例如:胆固醇水平有2项,减肥方式有3项,因而为3*2共6种组合,则一定需要有6行,并且一定为3列,最后一列叫‘加权项’,这样的数据格式上传到SPSSAU后进行分析即可。

五、差异幅度

  • p 值越小,差异幅度越大;
  • 效应量值越大说明差异幅度越大,通常情况下效应量小、中、大的区分临界点分别是: 0.20,0.50 和 0.80。

六、定量数据做卡方检验

卡方检验主要用来研究定类与定类数据间差异关系的;

那么定量数据能否进行卡方检验呢?此时可以分为以下三种情况讨论:

1)定量数据可以转化为定类数据(可以进行卡方检验)

自动按分位数分组

例如:想让样本数据按五分位数进行分样本处理; 第一步将数据按照指定变量从小到大排列; 第二步分别找到20%分位点、40%分位点、60%分位点、和80%分位点; 第三步将小于20%分位点的全部取值为1,20%-40%取值为2,60%-80%取值为3,80%以上取值为4。

按实际意义分组

例如:本科以下、本科以上两组; 20岁以下、20-30岁、30岁以上。

2)定量和定类模糊(视研究偏好而定)

例如:量表数据,比如非常不满意,不满意,一般,满意和非常满意

3)定量不可转化为定类数据(不可以进行卡方检验)

如果研究定类与定量数据之间的关系,此时应该使用方差或者T检验。

差异关系研究方法选择见下表:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容