用R语言进行物种丰度和环境因子的相关性分析

此篇简书是线性相关分析(秩相关),可视化是热图;

还有其他相关分析方法(如基于峰值模型和降维手段的CCA分析)及对应的图,应该适合不同生物类群
install.packages(pheatmap)

library("pheatmap")

install.packages("psych")

library("psych")

species_table <-read.table("otu_table.Genus.relative.txt",comment.char = "",check.names=F,stringsAsFactors=F,header=T,sep="\t")

#comment.char设置注释字符,以这个字符开头的行将被忽略;设置为空时,就不会忽略数据中的信息

#check.names=F,不会自动修改行名和列名;

#stringsASFactor=F;不会自动把strings设置成因子

#header=true设置第一个有效行为列名

#sep="\t",设置制表符为分隔符;"\"表示制表符;

species_table$Taxonomy[duplicated(species_table$Taxonomy)]<-paste(species_table$Taxonomy[duplicated(species_table$Taxonomy)],"_1",sep="")

#此命令用来区分重复的属名,由于数据库不同科下的属会出现同名不同类的情况,因此需要加以区分

#"[]"表示索引;索引true项

#duplicated函数表示判断是否重复;是重复的‘TRUE’;非重复‘FALSE’

species_table<-species_table[-nrow(species_table),]

#表示去除最后一行;

#表格索引‘[a,b]’,a代表表格第a行,b代表表格第b列;

#‘-’表示去除这一行或这一列;

#nrow表示计算这个表格总行数;

#ncol表示计算这个表格的总列数;

rownames(species_table)<-species_table$Taxonomy

#将第一列作为行名;

species_table<-species_table[,-c(1,ncol(species_table))]

#去掉第一列和最后一列,不需要的分类信息

map<-read.table("mapping_file.txt",sep = "\t",na.strings = "",header = T,row.names = 1,comment.char = "",check.names = F,stringsAsFactors = F)

#含有准备好含有环境变量因子的map文件

#na.strings=""设置缺失值的字符

map<-map[,10:14]

#提取需要分析的环境因子

species_table<-t(species_table)

#转置

sum_of_species<-colSums(species_table)

#计算每个样品中每个物种的总丰度,用于筛选

species_table<-species_table[match(rownames(map),rownames(species_table)),]

#重排species_table行的顺序,使其与map保持一致;

merged_table<-data.frame(map,species_table,check.names=F,check.rows = T )

#合并环境因子map表格和otu表格

correlation_results<-corr.test(merged_table,method = "spearman",adjust = "fdr")

#计算spearman秩相关;spearman也可以换成pearson

correlation_results$ci

#'$'在表格后面表示返回某一列值;

#查看ci置信区间,如果置信区间太大(上限和下限),则相关系数不太可信;

r<-correlation_results$r

#提取相关矩阵

p<-correlation_results$p

#提取p值矩阵

r<-r[-c(1:5),-c(6:192)]

p<-p[-c(1:5),-c(6:192)]

#剔除不关心的相关系数,环境与环境之间的相关系数;生物与生物之间的相关系数;

selected_position_of_species<-head(order(colSums(t(p)<0.05),decreasing = T),20)

#colSums(t(p)<0.05),每列所得出的逻辑值的和,也可换成rowSums(p<0.05)

#order对值进行排序(升序或降序),从大到小或从小到大得出值的位置,并返回值所在位置;方便索引

#sort也是排序,是返回从大到小或从小到大的值

#head是取前多少的值(20为例)

rowSums(p<0.05)

#每行所得出的逻辑值相加

r<-r[selected_position_of_species,]

p<-p[selected_position_of_species,]

#得到筛选后的相关系数矩阵和p值矩阵;

#“[selected_position_of_species,]”索引排名前20的物种的行(行名是物种名)的位置

sig_label<-function(x){ifelse(x<0.001,"***",ifelse(x<0.01,"**",ifelse(x<0.05,"*","")))}

#自定义显著性标记函数

#ifelse函数;(test,a,b),test为真返回a,为假返回b

sig_matrix<-sig_label(p)

pheatmap(r,fontsize = 15,border_color="black",

        display_numbers = sig_matrix,fontsize_row = 15,fontsize_col = 15,

        fontsize_number = 22,

        #显著性标记的大小

        cluster_rows=T,clustering_distance_rows = "correlation",

        #指明行聚类、聚类依据的距离;

        cluster_cols=T,clustering_distance_cols = "euclidean",

        #指明列聚类、聚类依据的距离;

        clustering_method = "centroid")

        #指明聚类方法

#可视化

最终得到的热图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。