实验内容
1.在TCGA数据库下载疾病BRCA的突变数据
熟悉TCGA数据库的结构与数据下载方法
2.处理下载数据,将其变为列为样本行为基因的形式并输出(数据处理过程中去掉同义突变),用0表示没有突变,1表示突变
实验代码
setwd("E:\\实验\\转录组学\\实验三")
exp<-read.csv("exp.csv",as.is=T)
geneid<-unique(exp[,2])#提取geneid列18062
sample<-unique(exp[,4])#提取sample列986
long1<-length(geneid)
long2<-length(sample)
genelist1<-as.data.frame(list())#建立一个空数据框
install.packages("plyr")
library(plyr)
#找表达谱里每个样本出现的gene,形成数据框
for (i in 1:long2)
{
genelist<-as.data.frame(t(exp[which(exp[,4]==sample[i]),2]))
genelist1<-rbind.fill(genelist,genelist1)
}
dim(genelist1)
genelist2<-t(genelist1)
dim(genelist2)
var_exp<-matrix(NA,long1,long2)#建立一个空矩阵,18062*986
#判断每个样本对应的每个gene是否在全部gene里(在为TRUE,不在为FLASE)
for (i in 1:long2)
var_exp[,i]<-geneid%in%genelist2[,i]
varexp<-as.matrix(lapply(var_exp,as.numeric))#转化成0/1
varexp1<-matrix(varexp,18062,986)#转化为矩阵
rownames(varexp1)<-geneid
colnames(varexp1)<-sample
write.table(varexp1,"varexp.txt",sep="\t",header=T)#写出