通常来说,GEO和TCGA的基因表达数据和临床数据是分开的,为了合并这两个数据,这里使用R进行操作。
基因表达数据如下:
生存数据如下:
在R中读入上述两个数据,然后使用代码合并。
代码如下:
# 生存时间和基因表达矩阵的合并
setwd("~/test_ty/survival/") # 这里你设置你自己的文件路径就可以了
options(stringsAsFactors = F)
rm(list = ls())
exp <- read.table("genematirx.txt",header = T,sep = "\t") #这里输入你的基因表达矩阵文件
time <- read.table("survivaltime.txt",header = T,sep = "\t") #这里输入你的生存时间文件
colnames(time)[1] <- colnames(exp)[1]
exp <- as.data.frame(t(exp))
colnames(exp)<- exp[1,]
exp<- exp[-1,]
result <- cbind(time,exp[match(time$ID,row.names(exp)),])
write.table(result,"combined.txt",sep = "\t",quote = F,row.names = F)
得到的combined.txt即合并后的文件。