TCGA常见数据库下载方式

TCGA常见下载方式:

【01】直接复制链接,在线下载解压

来源:

> getwd()
[1] "D:/R_code/follow_practice/xuetu_GEO_follow/week_practise/01_follow_practise/01_TP53_BRCA"
# Step1 download TCGA dateset ---------------------------------------------
rm(list=ls())
if (!file.exists( './data/TCGA-BRCA.htseq_counts.Rdata' )) {
  gzfile <- "./raw_data/TCGA-BRCA.htseq_counts.tsv.gz"
  download.file("https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-BRCA.htseq_counts.tsv.gz", 
                destfile = gzfile)
  library(R.utils)
  gunzip(gzfile, remove = F)
  library(data.table)
  raw_data <- fread( "./raw_data/TCGA-BRCA.htseq_counts.tsv",
                     sep = '    ', header = T)
  raw_data <- as.data.frame( raw_data )
  raw_data[1:5, 1:6] 
  rownames( raw_data ) <- raw_data[, 1]
  raw_data <- raw_data[, -1]
  raw_data[1:5, 1:6]
  raw_data <- 2^raw_data - 1
  raw_data <- ceiling( raw_data )
  raw_data[1:5, 1:6]
  pick_row <- apply( raw_data, 1, function(x){
    sum(x == 0) < 10
  })
  raw_data <- raw_data[pick_row, ]
  dim(raw_data  )
  save( raw_data, file = './data/TCGA-BRCA.htseq_counts.Rdata' )
}else{
  load('./data/TCGA-BRCA.htseq_counts.Rdata')
}



# Step2 Grouping by special clinical information --------------------------

if (!file.exists( './raw_data/TCGA-BRCA.GDC_phenotype.tsv.gz' )) {
  gzfile <- "./raw_data/TCGA-BRCA.GDC_phenotype.tsv.gz"
  download.file("https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-BRCA.GDC_phenotype.tsv.gz", 
                destfile = gzfile)
  phenoData <- read.table( gzfile,
                           header = T,
                           sep = '  ',
                           quote = '' )
  save( phenoData, file = './data/TCGA-BRCA.GDC_phenotype.Rdata' )
}else{
  load('./data/TCGA-BRCA.GDC_phenotype.Rdata')
}

pheno_num <- c()
invisible(
  lapply(1:ncol(phenoData), 
         function(col_num){
           ## Assume that the classification project is between 2 and 4
           if (1 < dim(table(phenoData[,col_num])) & 
               dim(table(phenoData[,col_num])) < 5) {
             pheno_num <<- append(pheno_num, col_num, after = length(pheno_num))
           }
         }
  )
)
View(phenoData[, pheno_num])
names(phenoData[, pheno_num])

## Category 3: TP53
if (!file.exists( './raw_data/TCGA-BRCA.mutect2_snv.tsv.gz' )) {
  gzfile <- "./raw_data/TCGA-BRCA.mutect2_snv.tsv.gz"
  download.file("https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-BRCA.mutect2_snv.tsv.gz", 
                destfile = gzfile)
  mutype_file <- read.table( gzfile,
                             header = T,
                             sep = '    ',
                             quote = '' )
  save( mutype_file, file = './data/TCGA-BRCA.mutect2_snv.Rdata' )
}else{
  load('./data/TCGA-BRCA.mutect2_snv.Rdata')
}

## Pick columns that contains 'tp53'
TP53 <- mutype_file[mutype_file$gene == 'tp53' | mutype_file$gene == 'TP53',]
TP53_sample <- unique( sort( TP53$Sample_ID ) )
tumor_sample <- colnames(raw_data)[substr( colnames(raw_data),14,15) < 10]
TP53_sample <- intersect(tumor_sample, TP53_sample) #intersect取交集
noTP53_sample <- setdiff(tumor_sample, TP53_sample)
save(TP53_sample, noTP53_sample, file = './data/sample_by_TP53.Rdata')


# Step3 Filt sample ------------------------------------------------

load('./data/TCGA-BRCA.htseq_counts.Rdata')

tp53_sample <- c(TP53_sample, noTP53_sample)
AssayData <- raw_data[, tp53_sample]
dim(AssayData)
group_list <- c(rep('TP53', length(TP53_sample)),
                rep('NO_TP53', length(noTP53_sample)))
save(AssayData, group_list, file = './data/tnbc_tumor_TP53_AssayData.Rdata')

【02】UCSCXenaTools包下载

来源:

UCSCXenaTools包下载,下载好之后直接是可操作形式,省去fread()函数读取和处理。

 getwd()
[1] "D:/R_code/follow_practice/xuetu_GEO_follow/week_practise/01_follow_practise/03_TCGA-BRCA"

这地方需要注意,UCSCXenaTools下载的TCGA-BRCA.mutect2_snv.tsv这种可以直接使用,但是 TCGA-BRCA.htseq_counts.tsv不行,读出来的不一样【修正】。也可以直接用,直接赋值给

需要注意,临床信息可能不一样。临床信息中TCGAbiolinks包下载的更佳。

a= raw_data
a=as.data.frame(a) ##后面是一样的使用。

就是说,前面那种下载解压方法, 后面的可以直接保存曾.Rdata文件,然后上面fread()读出来的效果和.Rdata是一样的。但后面需要进行的操作不能少。

结合这个看,两者结合。后面有筛选的部分。

##等价于自己官网下载
rm(list=ls())
library("UCSCXenaTools")
raw_data<-XenaGenerate(subset = XenaCohorts =="GDC TCGA Breast Cancer (BRCA)")%>% 
  XenaFilter(filterDatasets    = "TCGA-BRCA.htseq_counts.tsv") %>% 
  XenaQuery() %>%
  XenaDownload() %>% 
  XenaPrepare()   #加载数据

head(raw_data)

##查找特定的
# stad_set4 <- XenaScan(pattern = 'stomach cancer ')
# stad_set5 <- stad_set4 %>%
#   XenaGenerate()
##返回第一步下载
save(raw_data,file = "TCGA-BRCA.htseq_counts.tsv")
save(raw_data,file = "TCGA-BRCA.htseq_counts.Rdata")



library("UCSCXenaTools")
phenotype_file<-XenaGenerate(subset = XenaCohorts =="GDC TCGA Breast Cancer (BRCA)")%>% 
  XenaFilter(filterDatasets    = "TCGA-BRCA.GDC_phenotype.tsv") %>% 
  XenaQuery() %>%
  XenaDownload() %>% 
  XenaPrepare()   #加载数据

head(phenotype_file)
save(phenotype_file,file = "TCGA-BRCA.GDC_phenotype_file.tsv")
save(phenotype_file,file = "TCGA-BRCA.GDC_phenotype_file.Rdata")

【03】官网下载:

https://xenabrowser.net/datapages/
要啥有啥

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容