总结:
使用条件:定类变量,大于等于两组
数据集存放:原始数据直接用;统计过的数据需要加权个案
卡方值的选择:需要根据样本量n和格子中的理论数E来定。通常2*2数据量少的话用费舍卡方。
一 简介
- 卡方检验主要应用于定类变量和定类变量之间的关系,比如验证不同性别下使用电脑品牌是否存在差异。
- 也称独立性检验,是一种非参数假设检验。即利用卡方分布去做的假设检验。
- 关键词:
- 卡方分布
统计学中三大分布,卡方分布,t分布,F分布,都是由正态分布推导而来。 - 假设检验
- 类别变量
- 自由度 Df=(r-1)(c-1)
- 卡方值与P值
P值:小拒大接 - 非参数检验
- 显著性水平:在原假设成立下,拒绝原假设的概率,即犯第一错误的概率。
二 原理
(一)卡方检验统计量
- 小结
- 分子代表实际值与期望值的偏差(平方是为了消除负值影响),分母代表标准化。因此卡方统计量的值越小,代表观测频数与理论频数越接近;
- 因为我们的原假设是:两个变量是独立的。(通常原假设是我们想要推翻的,我们想证明的结论一般放在备择假设中)因此如果卡方统计量的值越大,对应的P值越小,小拒大接,则拒绝原假设,说明两个变量相关;反之,卡方值越小,接受原假设,说明两变量是独立的
(为什么?我的理解:卡方值越小,偏差小,说明这两个变量越符合卡方分布,而卡方分布的前提就是变量间的独立性,因此证明这两个变量是独立的)
(二)基本流程
三 使用工具
SPSS卡方检验
- 如何存放数据集?
在使用SPSS卡方检验时,有两种存放数据集方式。
第一种使用的是已经加工好的数据,需要创建三个变量值(类别1,类别2,数量)。此时一定要先对频数加权个案,就是要告诉spss实际样本很多,有相应的频数之“和”那么多;如果不选择,spss就会默认一行一个样本数据;
第二种是直接使用原始样本(即有多少样本量就有多少行)
- 使用卡方检验有哪些前提条件?
R×C表卡方检验应用条件:
(1)R×C表中理论数小于5的格子不能超过1/5;
(2)不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。
- 使用哪个卡方值更准确?
需要结合X和Y的类别个数,样本量,以及期望频数格子分布情况等,选择最终应该使用的卡方值。
n代表总样本量;E代表期望频数;R代表X的类别个数;C代表Y的类别个数。
通常情况下,共有三种卡方值,分别是Pearson卡方,yates校正卡方,Fisher卡方;优先使用Pearson卡方,其次为yates校正卡方,最后为Fisher卡方。
- 针对2*2(R=2,C=2)
- 所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。
- 如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验。
- 如果有理论数T<1或n<40,则用Fisher’s检验。
- 针对R*C(R,C中任意一个大于2;且R>=2,且C>=2)
E全部>1 且 1 <=E<5格子的比例小于20% 则使用Pearson卡方,否则使用yates校正卡方。(?)
- 文字分析描述怎么写?
从上表可知,类别1与类别2在统计学意义上存在显著性差异(χ²=7.054,p =0.029 < 0.05)。具体描述再通过对比百分比寻找差异。
如果想了解两个类别的相关强度,在SPSS交叉表-统计量-勾选相关性,查看相关系数。(弱相关、中度相关和强相关的分解线系数分别为0.1,0.3,0.5) - 卡方检验的缺陷
卡方检验只能判断各组间是否存在差异,如果想要进一步确认具体是哪些组之间存在了差异,需要对结果更深入分析,即使用两两比较,见SPSS:多个样本率的卡方检验及两两比较 - SPSS非参数检验中的卡方检验有什么区别?
简单来说,交叉表是多变量的交叉,非参数中的卡方检验是单个变量的差异分析。比如检验商场一周从周一到周日每天人流量是否有差异。
知乎-踩坑总结
笔记18:SPSS交叉表卡方与非参数卡方检验有何区别?附案例