网站
-
点击进去
界面 -
选择DATA SETS
选择一个数据中心以及数据集 -
选中 个TCGA-CHOL
数据集的具体情况
临床信息
phenotype是指临床信息
-
下面看下count数据界面
数据预览该数据已经经过log了
由于我们下载的数据,已经是经过log了。加上,我们需要的count数据,我们只能将下载的数据反log处理得到count数据
做差异分析,我们只要count就足够了。 -
下面看一下,生存信息
生存信息
下面是相关的R代码
# 1.xena
#下载三个数据count数据、临床信息,生存信息
#下面语句的含义是:从哪个地址下载,并命名
#当你已经下载了数据的时候,将if(T)该为if(F)
if(F){
download.file(url = "https://gdc.xenahubs.net/download/TCGA-CHOL.htseq_counts.tsv.gz",destfile = "counts.tsv.gz")
download.file(url = "https://gdc.xenahubs.net/download/TCGA-CHOL.survival.tsv.gz",destfile = "survival.tsv.gz")
}
#读取下载来的count文件 压缩格式的
dat = read.table("counts.tsv.gz",
check.names = F,
row.names = 1,#行名
header = T)#有列名
#逆转log
dat = as.matrix(2^dat - 1)
dat[1:4,1:4]
as.character(dat[1:100,1:10]) #有一些小数
#因为有整数,所以我们应该取整
# 用apply转换为整数矩阵
exp = apply(dat, 2, as.integer)#as.integer向下取整;ceiling是向上取整
exp[1:4,1:4] #行名消失
rownames(exp) = rownames(dat)
#临床信息读取
clinical = read.table("phenotype.tsv.gz",fill = T,header = T,sep = "\t")
#生存信息读取
surv = read.table("survival.tsv.gz",header = T)
clinical[1:4,1:4]
surv[1:4,1:4]
# 2.GDCRNATools
#下面的链接就是该数据下载方式的教程
# http://bioconductor.org/packages/devel/bioc/vignettes/GDCRNATools/inst/doc/GDCRNATools.html