TCGA数据分析(3)

由于下载的TCGA数据,都是独立文件夹。即每个样本,一个文件夹,文件夹下是压缩数据,还需要将所有的数据进行解压,然后将所有的数据进行合并,并提取分组信息,再进行后续的分析。

a.将所有的文件移动到all文件夹下

#获取当前目录
getwd()
#新建文件夹all,将所有样本文件夹中的压缩数据移动到all文件夹下
dir.create('all')
i<-list.dirs()
m=i[2:(length(i)-1)]
for(n in m){  
 x.path=paste(n,list.files(n),sep='/')
 file.copy(x.path,'./all',recursive = T)
}

b. 手动解压文件到unzip文件夹下
c. 合并所有的count文件成x_merge文件

#设置为解压后的文件路径
setwd("C://Users//dongl//Desktop//tcga//stomach//unzip")
#定义空变量
x_merge=NULL
i<-list.files()
#merge所有的文件为x_merge
for(n in i){
   x=read.delim(n,col.names = c('ID',substr(n,1,9)))
   if(is.null(x_merge)){
   x_merge=x
  }
  else{x_merge=merge(x_merge,x,by='ID')
  }  
}

d.基因名转换成行名

#基因转换成行名
rownames(x_merge)<-x_merge$ID
x_reduce=x_merge[-(1:5),]
x_reduce=x_reduce[,-1]
rownames(x_reduce)=x_merge$ID[-c(1:5)]

> head(x_reduce,10)[,1:3]
                   X0097539b. X01411772. X01ed42c5.
ENSG00000000005.5           0          4          7
ENSG00000000419.11       1304       5219       3533
ENSG00000000457.12        370       1409        892
ENSG00000000460.15        452       1850        710
ENSG00000000938.11        335        442        333
ENSG00000000971.14       1126       3818       1009
ENSG00000001036.12       3221       2863       4315
ENSG00000001084.9        1469       3106       2275
ENSG00000001167.13       1380       5304       4202
ENSG00000001460.16        459        785        357

转自“医学统计园”

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容