这里对组间差异的方法做个汇总
1 两组间的比较
1.1 符合参数假设,例如正态分布。
独立变量 t.test()
非独立变量 t.test() 参数paired=T
1.2 非参数假设,例如严重偏倚或者呈现有序关系
独立变量 wilcox.test()
非独立变量 wilcox.test() 参数paired=T
2 多于两组的比较
2.1 符合参数假设
ANOVA
2.2 非参数假设
独立变量 kruskal.test()
非独立变量 friedman.test()
调用这些函数的方法都是相同的,以下函数都用f()表示。
# 第一种方法
f(y~ x,data)
-y: 一个数值型变量
-x: 分组变量
-data: data=上述变量的数据框
#第二种方法 (仅用于两组之间的比较)
f(y1,y2)
-y1: 一个数值变量
-y2: 另一个数值变量
下面举个例子
state.x77数据集包含了1977年美国50个州的人口,收入,文盲率等数据。
我想要知道美国四个地区的文盲率是否有显著差异
# 首先将state.region和state.x77合并成一个数据框
> mytable <- data.frame(state.x77,state.region)
# 然后使用多组比较的非参数独立变量方法
> kruskal.test(Illiteracy ~ state.region,data=mytable)
Kruskal-Wallis rank sum test
data: Illiteracy by state.region
Kruskal-Wallis chi-squared = 22.672, df = 3, p-value = 4.726e-05
p值小于0.001,说明美国四个地区的文盲率各不相同。