在数据分析过程中,尤其是在做基因筛选时,常会应用到批量筛选,这也是应用R语言分析数据的优势之一。在这一点上往往在线工具不能提供这样的功能。
我们来构建一个虚拟数据,来完成基因之间的批量分析,并导出结果
先产生一个矩阵
data<-matrix(rnorm(120),nrow=20,ncol = 6)
模仿一个矩阵数据
rownames(data)<-paste("gene",1:20,sep = "")
colnames(data)<-paste("sample",1:6,sep ="" )
head(data)
## sample1 sample2 sample3 sample4 sample5 sample6
## gene1 0.6713704 0.9258705 0.6584580 0.87819034 1.3191532 -0.18602102
## gene2 -0.3275014 1.2083650 0.1699489 0.54841864 0.3195813 -0.04661051
## gene3 1.3187930 0.8165928 -0.6706707 0.11174014 -0.1358276 -0.43858189
## gene4 -0.8040756 0.3348103 -1.5573817 -0.45613542 -0.3221384 -0.59782362
## gene5 -0.9396341 0.7283671 -1.3389603 -0.50145046 -0.2183778 0.88841818
## gene6 1.1326463 -1.5588096 0.3842358 0.06078977 -1.0196727 0.61900583
实现批量完成基因间的相关系数计算
首先明确实现这个目的可以使用for循环 ### 构建好需要得出的结果表,包括基因名,相关系数,Pvalue
在使用for循环前,需要先来思考for循环的三个部分
- 输出:即想得到的结果
- 序列:如何进行循环迭代(三种循环模式:位置,元素,名称)
- 函数体:使用函数解决的问题
首先创建空向量
gene_name1<-c()##也可用vector
gene_name2<-c()
cor_r<-c()
pvalue<-c()
准备好循环体-可使用嵌套的for循环,完成完整的计算但不重复
注意第二个for循环的值为 i: nrow(data),这一点很巧妙
for (i in 1:nrow(data)){
for (r in i:nrow(data)){
g1=rownames(data)[i]
g2=rownames(data)[r]
c_r=cor(as.numeric(data[i,]),as.numeric(data[r,]),method="pearson")
p=cor.test(as.numeric(data[i,]),as.numeric(data[r,]),method ="pearson")[[3]]
##保存每一步的数据,而不可直接以空向量作为每一步运行的结果
gene_name1=c(gene_name1,g1)
gene_name2=c(gene_name2,g2)
cor_r=c(cor_r,c_r)
pvalue=c(pvalue,p)
}
}
输出为数据框,导出结果
data_cor<-data.frame(gene_name1,gene_name2,cor_r,pvalue)
head(data_cor)
## gene_name1 gene_name2 cor_r pvalue
## 1 gene1 gene1 1.0000000 7.395571e-32
## 2 gene1 gene2 0.4436884 3.781395e-01
## 3 gene1 gene3 0.2553650 6.252788e-01
## 4 gene1 gene4 0.2900609 5.771108e-01
## 5 gene1 gene5 -0.3356649 5.154125e-01
## 6 gene1 gene6 -0.6095215 1.989414e-01
dim(data_cor)
## [1] 210 4
转载请注明出处