2021-06-18 两组间差异分析之t检验在R中实现

来源:小白鱼的生统笔记 如有侵犯,立删
做统计学分析的其中一个重要目的就是寻找组间差异,在研究中,我们最常关注的问题莫过于处理组与对照组是否存在了显著不同。就两组间比较而言,t检验是常见的分析方法之一。
本文简介怎样在R中进行t检验,以实现两组间差异分析。
文件“alpha.txt”为某16S细菌群落测序所获得的部分alpha多样性指数数据,包含3列信息:sample,样本名称;observed_species和shannon分别为两种类型的alpha多样性指数。文件“group.txt”为各样本分组信息,第一列(sample)为各样本名称;第二列(group)为各样本的分组信息。
接下来,我们期望在R中运行t检验,以查看不同分组间(两两分组之间)的各alpha多样性指数是否存在显著不同。

数据预处理及正态性假设检验

数据预处理

首先将上述两个数据表读入R中,并合并在一起。

library(reshape2) 

#读入文件,合并分组信息,数据重排
alpha <- read.table('alpha.txt', sep = '\t', header = TRUE, stringsAsFactors = FALSE)
group  <- read.table('group.txt', sep = '\t', header = TRUE, stringsAsFactors = FALSE)
alpha <- melt(merge(alpha, group, by = 'sample'), id = c('sample', 'group'))

#我们期望查看 group1 和 group2 的 observed_species 指数是否存在显著差异
#选择要比较的分组
richness_12 <- subset(alpha, variable == 'observed_species' & group %in% c('1', '2'))
richness_12$group <- factor(richness_12$group)

正态性假设检验

t检验的一个重要前提就是数据必须符合正态分布模型。因此在执行t检验之前必须验证数据分布的正态性。若数据不符合正态分布,则t检验将无法适用于该数据(此时可以考虑转化数据,或者使用非参数的检验方法)。验证数据是否符合正态分布的方法很多,以下展示两种常见方法。

正态QQ图

以下使用car包中的qqPlot(),绘制QQ图查看数值分布。结果中,横坐标是标准的正态分布值,纵坐标是我们数据的值。如果两者基本相等,或者说所有的点都离直线很近,落在置信区间内(图中虚线部分,默认展示95%置信区间),即表明正态性假设符合得很好。

##正态 qq 图验证数据正态性
library(car)
#QQ-plot
qqPlot(lm(value~group, data = richness_12), simulate = TRUE, main = 'QQ Plot', labels = FALSE)

Shapiro-Wilk检验

Shapiro-Wilk类似于线性回归的方法,是检验其于回归曲线的残差,据此验证数据分布的正态性。R中提供了可用于执行Shapiro-Wilk检验的函数shapiro.test(),原假设(或称零假设)为数据集符合正态分布,若结果中p值大于0.05,则接受原假设,数据分布符合正态性。

##Shapiro-Wilk 检验,当且仅当两者 p 值均大于 0.05 时表明数据符合正态分布
shapiro <- tapply(richness_12$value, richness_12$group, shapiro.test)
shapiro
shapiro$'1'$p.value
[1] 0.1258505
shapiro$'2'$p.value
[1] 0.5805032

t检验

综上,我们的数据分布通过了正态假设检验,即可执行t检验。可分为独立样本的t检验与非独立样本的t检验。

独立样本的t检验

如果样本间是相互独立的,可选用独立样本t检验。R语言t检验函数t.test()中默认两组间相互独立(默认参数paired = FALSE),执行独立样本的t检验。同时需注意,在R中的t检验默认假定方差不相等(默认参数var.equal = FALSE),并使用Welsh的修正自由度;可以通过参数“var.equal = TRUE”假定方差相等,并使用合并方差估计。此外,t.test()默认的备择假设是双侧的(默认参数alternative = 'two.sided'),即执行双侧检验;可分别使用“alternative = 'less'”或“alternative = 'greater'”执行单侧t检验。
我们执行了一个假设方差不相等的双侧检验,如下示例。

##独立样本的 t 检验
t_test <- t.test(value~group, richness_12, paired = FALSE, alternative = 'two.sided')
t_test

    Welch Two Sample t-test

data:  value by group
t = 5.082, df = 12.753, p-value = 0.0002232
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 107.8509 267.8991
sample estimates:
mean in group 1 mean in group 2 
       2236.250        2048.375 

 t_test$p.value
[1]  0.0002232067

由于p值远小于0.05,即拒绝了原假设(原假设两组间没有差异),group1和group2的observed_species指数间存在显著不同。

非独立样本的t检验

如果样本间并非相互独立的,可选用非独立样本t检验。例如,非独立组设计(dependent groups design),前-后测设计(per-post design),或重复测量设计(repeated measures design)等。
此时在t.test()中设定参数“paired = TRUE”即可执行非独立样本的t检验,如下示例,同样为假设方差不相等的双侧检验。

##非独立样本的 t 检验
t_test <- t.test(value~group, richness_12, paired = TRUE, alternative = 'two.sided')
t_test

    Paired t-test

data:  value by group
t = 6.9926, df = 7, p-value = 0.000213
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 124.343 251.407
sample estimates:
mean of the differences 
                187.875 

 t_test$p.value
[1] 0.0002129512

由于p值远小于0.05,即拒绝了原假设(原假设两组间没有差异),group1和group2的observed_species指数间存在显著不同。

可视化展示

#boxplot() 箱线图示例
boxplot(value~group, data = richness_12, col = c('red', 'green'), ylab = 'Observed_species', xlab = 'Group', main = 't-test: p-value < 0.001')

#ggplot2 柱形图示例
#分别计算各组中的均值以及标准差,展示为均值 ± 标准差的柱形图样式

library(doBy)   #使用其中的 summaryBy() 以方便按分组计算
library(ggplot2)    #ggplot2 作图

dat <- summaryBy(value~group, richness_12, FUN = c(mean, sd))

ggplot(dat, aes(group, value.mean, fill = group)) +
geom_col(width = 0.4, show.legend = FALSE) +
geom_errorbar(aes(ymin = value.mean - value.sd, ymax = value.mean + value.sd), width = 0.15, size = 0.5) +
theme(panel.grid = element_blank(), panel.background = element_rect(color = 'black', fill = 'transparent'), plot.title = element_text(hjust = 0.5)) +
labs(x = 'Group', y = 'Observed_species', title = 't-test: p-value < 0.001')

总代码·

library(reshape2) 

#读入文件,合并分组信息,数据重排
alpha <- read.table('alpha.txt', sep = '\t', header = TRUE, stringsAsFactors = FALSE)
group  <- read.table('group.txt', sep = '\t', header = TRUE, stringsAsFactors = FALSE)
alpha <- melt(merge(alpha, group, by = 'sample'), id = c('sample', 'group'))

#我们期望查看 group1 和 group2 的 observed_species 指数是否存在显著差异
#选择要比较的分组
richness_12 <- subset(alpha, variable == 'observed_species' & group %in% c('1', '2'))
richness_12$group <- factor(richness_12$group)

##正态 qq 图验证数据正态性
library(car)

#QQ-plot
qqPlot(lm(value~group, data = richness_12), simulate = TRUE, main = 'QQ Plot', labels = FALSE)

##Shapiro-Wilk 检验,当且仅当两者 p 值均大于 0.05 时表明数据符合正态分布
shapiro <- tapply(richness_12$value, richness_12$group, shapiro.test)
shapiro
shapiro$'1'$p.value
shapiro$'2'$p.value

##独立样本的 t 检验
t_test <- t.test(value~group, richness_12, paired = FALSE, alternative = 'two.sided')
t_test
t_test$p.value

##非独立样本的 t 检验
t_test <- t.test(value~group, richness_12, paired = TRUE, alternative = 'two.sided')
t_test
t_test$p.value

##可视化差异展示
#boxplot() 箱线图示例
boxplot(value~group, data = richness_12, col = c('red', 'green'), ylab = 'Observed_species', xlab = 'Group', main = 't-test: p-value < 0.001')

#ggplot2 柱形图示例
#分别计算各组中的均值以及标准差,展示为均值 ± 标准差的柱形图样式

library(doBy)   #使用其中的 summaryBy() 以方便按分组计算
library(ggplot2)    #ggplot2 作图

dat <- summaryBy(value~group, richness_12, FUN = c(mean, sd))

ggplot(dat, aes(group, value.mean, fill = group)) +
geom_col(width = 0.4, show.legend = FALSE) +
geom_errorbar(aes(ymin = value.mean - value.sd, ymax = value.mean + value.sd), width = 0.15, size = 0.5) +
theme(panel.grid = element_blank(), panel.background = element_rect(color = 'black', fill = 'transparent'), plot.title = element_text(hjust = 0.5)) +
labs(x = 'Group', y = 'Observed_species', title = 't-test: p-value < 0.001')
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351