R语言实现Alpha多样性指数的计算
上次我们已经使用R语言来对OTU表的抽平分析,那么我们如何使用抽平后的OTU表来重新计算Alpha多样性呢?接下来我们就来学习一下。
不过你可能会说,这个不是测序公司都计算好了吗,而且还可以用qiime软件,为啥还要使用R,因为有些测序公司并没有帮你抽平,再一个我使用R语言比较多,如果你会使用其他软件当然更好。欢迎你与我分享一下。
1 所需的数据类型
这里我们需要使用到两个数据集:一个是经过抽平分析处理后的otu表(如果不会抽平分析的可以查看该文章
;
另外一个数据集是使用各OTU代表序列构建的进化树文件“otu_tree.tre”。
抽平分析后得到的otu表:(当然你也可以选择不抽平)
计算每一种Alpha多样性指数都会用到otu表,但是对于otu_tree.tre文件,只用于计算谱系多样性。
2 使用R语言计算常用的Alpha多样性指数
我们接下来会使用到两个包,一个是vegan包,另一个是picante包。如果没安装这两个包,需要提前安装好。
vegan包可以用来计算多种Alpha多样性指数,例如这次我们要学习计算的物种丰富度(Richness)、Chao 1指数、ACE指数、Shannon指数、Simpson指数等。
谱系多样性(即PD_whole_tree)需要使用picante包,该多样性除了物种丰富度数据外还需要进化树文件。
2.1 加载包以及数据集
#设置工作目录
setwd("D:/R_wenji/06-微信公众号/21_07_05")
#需要加载vegan包和picante包,没有安装需要先安装
library(vegan)
library(picante)
#读入抽平后的otu表
otu <- read.delim('otu.txt', row.names = 1, sep = '\t', stringsAsFactors = FALSE, check.names = FALSE)
#将otu数据转置
otu <- t(otu)
#加载进化树文件
tree <- read.tree('otu_tree.tre')
2.2 计算-物种丰富度 Richness 指数,又称observed species 指数
#计算方法一:
observed_species <- rowSums(otu > 0)
#计算方法二:
observed_species <- estimateR(otu)[1, ]
#输出查看结果
observed_species
2.3 计算 Chao 1指数
Chao1 <- estimateR(otu)[2, ]
Chao1
2.4 计算ACE 指数
ACE <- estimateR(otu)[4, ]
ACE
2.5 计算Shannon指数
#Shannon 指数,通常使用2、e作为底数
#以e作为底数表示方法
Shannon <- diversity(otu, index = 'shannon', base = exp(1))
#以2作为底数表示方法
Shannon <- diversity(otu, index = 'shannon', base = 2)
#输出Shannon_index结果
Shannon
2.6 计算Simpson指数
#Simpson指数分为经典 Simpson 指数和Gini-Simpson 指数,不过平时常用的 Simpson 指数即为 Gini-Simpson 指数
#Gini-Simpson 指数代码
Gini_simpson <- diversity(otu, index = 'simpson')
#经常使用
Gini_simpson
#经典 Simpson 指数
simpson_index <- 1 - Gini_simpson
2.7 计算goods_coverage 指数
goods_coverage <- 1 - rowSums(otu == 1) / rowSums(otu)
goods_coverage
2.8 计算谱系多样性(PD)
#除了otu文件,需要指定进化树文件
PD_whole_tree <- pd(otu, tree, include.root = FALSE)[1]
PD_whole_tree
单个计算Alpha多样性指数的方法已经讲完了,那么我该如何使用会比较方便呢?
那么请使用下面这个自定义函数,函数不够完美,你有需求可以自己修改。
3 使用自定义alpha_diversity函数来快速计算多种Alpha多样性指数
首先我们需要定义alpha_diversity函数:
library(vegan)
library(picante)
alpha_diversity <- function(x, tree = NULL) {
observed_species <- estimateR(x)[1, ]
Chao1 <- estimateR(x)[2, ]
ACE <- estimateR(x)[4, ]
Shannon <- diversity(x, index = 'shannon',base = 2)
Simpson <- diversity(x, index = 'simpson') #注意,这里是Gini-Simpson 指数
goods_Coverage <- 1 - rowSums(x == 1) / rowSums(x)
#保留四位小数
Shannon <- sprintf("%0.4f", Shannon)
Simpson <- sprintf("%0.4f", Simpson)
goods_Coverage <- sprintf("%0.4f", goods_Coverage)
result <- data.frame(observed_species, ACE,Chao1, Shannon, Simpson, goods_Coverage)
if (!is.null(tree)) {
PD_whole_tree <- pd(x, tree, include.root = FALSE)[1]
names(PD_whole_tree) <- 'PD_whole_tree'
result <- cbind(result, PD_whole_tree)
result <- data.frame(observed_species, ACE,Chao1, Shannon, Simpson,
PD_whole_tree ,goods_Coverage)
}
result
}
alpha_diversity函数定义好了,我们就可以导入数据进行计算了
#加载OTU 表
otu <- read.delim('otu.txt', row.names = 1, sep = '\t', stringsAsFactors = FALSE, check.names = FALSE)
otu <- t(otu)
#加载进化树文件
tree <- read.tree('otu_tree.tre')
#如果不需要计算谱系多样性
alpha <- alpha_diversity (otu)
#需要计算谱系多样性时,需要指定进化树文件
alpha1 <- alpha_diversity (otu, tree)
#将结果输出,保存在本地
write.csv(alpha, 'alpha_diversity.csv', quote = FALSE)
write.csv(alpha1, 'alpha_diversity1.csv', quote = FALSE)
是不是非常简单,如果你需要获取示例数据及代码,可以给我留言,如果你觉得对你有帮助,记得点个赞。
让我们一起加油吧。