TCGA是目前使用最多的肿瘤组学数据库,2018年的一批Cell文章也非常抢眼。在近年的肿瘤文章中,对TCGA数据库的分析,已成为标配。使用这个数据库,首先,当然是数据的下载了。
第一步,使用什么工具下载?结论是TCGAbiolinks包。着急用代码实战的亲们可跳到第二步了。
主要的下载资源有三处:官网、GDAC Firehose、UCSC Xena。
但是,
从能否下载raw_counts数据看,仅官网、Firehose可以。
从随访数据更新速度看,仅官网最全最新,Firehose更新最慢,Xena缺少用药数据。
从数据整理的难度看,难 -> 易:官网 > Firehose > Xena。
于是,综合来看,官网下载的数据是最全最新的,缺点是整理难度大。如果有工具弥补即可。TCGAbiolinks包可以弥补这点。这个包是从官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。
第二步,肺癌mRNA数据的下载。可推广到miR、CNV、甲基化等数据。
# 安装R包
source("https://bioconductor.org/biocLite.R")
biocLite("TCGAbiolinks")
# 加载R包
library(TCGAbiolinks)
projectid <- "TCGA-LUAD"
query.count <- ***query(project= projectid,
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - Counts") # 需注意“-”前后的空格
# 下载数据
***download(query.count)
# 获得表达矩阵
dataAssay = ***prepare(query.count, summarizedExperiment = F)
rownames(dataAssay) = as.character(dataAssay[,1])
# dataAssay就是矩阵了,它此时在R的环境变量里、也就是在计算机内存中。你可以在R中对它进行进一步的分析。
# 也可以用write.table或write.csv命令把它从R里保存出来到硬盘,并保存为csv的格式,就可以用excel打开了。
write.csv(dataAssay, "TCGA-matrix.csv") # 此时,保存的文件名为“TCGA-matrix.csv”
下载速度取决于网络与官网的连接。该代码第一次运行时下载数据,之后,在同一文件夹再运行,不会重复下载数据,而会读入之前下载的数据。
***是三个字母,不知道为什么被和/谐了……分别是"G""D""C"