TCGA(The Cancer Genome Atlas, 癌症基因组图谱,https://portal.gdc.cancer.gov/)是美国国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。
截止2020年1月13日,TCGA里面一共收录了63个癌症相关项目,那么有人不禁要问了,如何获取这63个癌症项目的具体项目编号和名称。今天我们就来聊一聊。
上图就是从TCGA官网截取的,显示目前一共有63个项目。可以点击箭头所指的Projects,获取具体63个癌症项目的名称,如下图所示。
除了从官网直接下载以外,我们也可以用R代码来获取。用到的还是我们前面用来获取临床信息的那个R包,TCGAbiolinks。TCGAbiolinks获取癌症临床信息
if (!requireNamespace("BiocManager", quietly=TRUE)){
install.packages("BiocManager")
}
BiocManager::install("TCGAbiolinks")
library(TCGAbiolinks)
projects=getGDCprojects()
write.csv(file="projects.csv",cbind(projects[8:9]),row.names=F)
通过这段代码,我们可以将获取到63个项目的信息,保存到本地的projects.csv这个文件中,然后用Excel打开查看。具体信息如下: