R语言与统计-3:卡方检验


R语言与统计-1:t检验与秩和检验
R语言与统计-2:方差分析


t检验和方差分析主要针对连续型变量,卡方检验主要针对分类变量。

1. 拟合优度检验

拟合优度检验是用卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。

简单来说,就是检验样本数据分布是否与已知总体的分布是一致的

#生成数据集
men <- c(11,120,60,45)
women <- c(20,102,39,30)
df <- as.data.frame(rbind(men,women))
colnames(df) <- c('AB','O','A','B')
df
#       AB   O  A  B
# men   11 120 60 45
# women 20 102 39 30
  • chisel.test函数
    检验男性组中,四种血型的分布是否一样
chisq.test(men)

#   Chi-squared test for given
#   probabilities

# data:  men
# X-squared = 105.46, df = 3, p-value <
# 2.2e-16

##p值远远小于0.05,男性组中四种血型的分布不一样

如若已知人群中四种血型的占比为0.1 0.5 0.2 0.2,看该组男性的血型分布是否与人群的一致。参数p:传入已知总体的参数情况。

chisq.test(men,p=c(0.1,0.5,0.2,0.2))

#   Chi-squared test for given
#   probabilities

# data:  men
# X-squared = 10.335, df = 3, p-value =
# 0.01592

##结果显示不一致

2. 卡方齐性检验和卡方独立性检验

两者写法一样,解释的方法不一样。
卡方齐性检验:比较不同的分类水平下,各个类型的比例是否一致。

chisq.test(df)

#   Pearson's Chi-squared test

# data:  df
# X-squared = 6.8607, df = 3, p-value =
# 0.07647

##男女不同血型的分布是一致的。即:血型的分布与性别无关。

卡方独立性检验:

chisq.test(df)

#   Pearson's Chi-squared test

# data:  df
# X-squared = 6.8607, df = 3, p-value =
# 0.07647

##意思是行变量(性别)和列变量(血型)之前没有关联

3. CMH检验 分层检验 针对不同的分层数据来进行

对于行变量为无序分类,列变量为有序分类的数据,由于不能忽略等级关系,也只能使用CMH检验,而不能使用皮尔森卡方检验。

# 生成一个数据集
Rabbits <- array(c(0,0,6,5,
                  3,0,3,6,
                  6,2,1,0,
                  5,6,1,0,
                  2,5,0,0),
                dim=c(2,2,5),
                dimnames = list(
                  Delay=c('None','1.5h'),
                  Response=c('Cured','Died'),
                  Penicillin.level=c('1/8','1/4','1/2','1','4')))
Rabbits
# , , Penicillin.level = 1/8

#       Response
# Delay  Cured Died
#   None     0    6
#   1.5h     0    5

# , , Penicillin.level = 1/4

#       Response
# Delay  Cured Died
#   None     3    3
#   1.5h     0    6

# , , Penicillin.level = 1/2

#       Response
# Delay  Cured Died
#   None     6    1
#   1.5h     2    0

# , , Penicillin.level = 1

#       Response
# Delay  Cured Died
#   None     5    1
#   1.5h     6    0

# , , Penicillin.level = 4

#       Response
# Delay  Cured Died
#   None     2    0
#   1.5h     5    0

使用CMH检验查看盘尼西林的水平和是否推迟注射对兔子的结局是否有影响。

mantelhaen.test()函数

mantelhaen.test(Rabbits)

#   Mantel-Haenszel chi-squared test with
#   continuity correction

# data:  Rabbits
# Mantel-Haenszel X-squared = 0.074445, df = 1,
# p-value = 0.785
# alternative hypothesis: true common odds ratio is not equal to 1
# 95 percent confidence interval:
#   0.3111294 13.8643579
# sample estimates:
# common odds ratio 
#         2.076923 

p值>0.05,无统计学意义。将盘尼西林分为5层水平后,立即注射和推迟1.5h注射的OR值是2.076923

4. 有序分类的卡方检验

mantelhaen.test()函数

Satisfaction <- 
  as.table(array(c(1,2,0,0,3,3,1,2,
                   11,17,8,4,2,3,5,2,
                   1,0,0,0,1,3,0,1,
                   2,5,7,9,1,1,3,6),
                 dim=c(4,4,2),
                 dimnames=list(Income=c('<5000','5000-15000','15000-25000','>25000'),
                               'Job Satisfaction'=c('V_D','L_S','M_S','V_S'),
                               Gender=c('Female','Male'))))
Satisfaction
# , , Gender = Female

#              Job Satisfaction
# Income        V_D L_S M_S V_S
#  <5000         1   3  11   2
#  5000-15000    2   3  17   3
#  15000-25000   0   1   8   5
#  >25000        0   2   4   2

#, , Gender = Male

#              Job Satisfaction
# Income        V_D L_S M_S V_S
#  <5000         1   1   2   1
#  5000-15000    0   3   5   1
#  15000-25000   0   0   7   3
#  >25000        0   1   9   6

income是一个有序分类变量。结果显示工资水平对工作满意度没有显著的统计学关系。

5. 配对四格表的卡方检验(常见的病例对照研究等)

paired <- as.table(matrix(c(157,24,69,18),nrow = 2,dimnames = list(case=c('A','B'),control=c('A','B'))))
paired
#     control
# case   A   B
#    A 157  69
#    B  24  18

mcnemar.test()函数

mcnemar.test(paired)

#   McNemar's Chi-squared test with continuity
#   correction

# data:  paired
# McNemar's chi-squared = 20.817, df = 1,
# p-value = 5.053e-06

###p<0.05, case和control之间存在相关性
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容