TCGA新版数据批量下载

众所周知,TCGA数据库改版了!!改的比之前更好用了!

对于常规转录组数据,主要是以下几点改变:

  • 下载一次即可获得counts、TPM、FPKM三种类型的表达矩阵,再也不用单独下载了

  • 自带gene symbol,不用自己找各种方法转换了

  • 自带基因类型,可以直接区分mRNA和lncRNA了

TCGAbiolinks不仅是数据下载,它能访问、下载全部的TCGA数据(除了受限制的),用它下载的数据是最新最全的!这和直接去GDC官网,使用网页下载的方式是一样的。

除了常规的转录组数据,还包括甲基化数据、SNP数据、突变数据、临床数据等多种数据类型,还能进行数据分析,比如差异分析、生存分析、聚类等,除此之外,它也具有强大的绘图功能,可以直接绘制突变瀑布图等多种图形,是一个全面的TCGA包。

作为官方唯一推荐的专用下载及分析可视化一体的R包:TCGAbiolinks,也进行了相应的更新。

xena的数据并不会及时更新,最新的数据还停留在2019年。

因为网络问题一直没怎么学习过这个强大的R包,最近数据更新了,学习下。

安装

需要安装版本在2.25.1以上的版本!

# 经典2选1
if (!requireNamespace("BiocManager", quietly=TRUE))
    install.packages("BiocManager")
BiocManager::install("TCGAbiolinks")

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("BioinformaticsFMRP/TCGAbiolinksGUI.data")
BiocManager::install("BioinformaticsFMRP/TCGAbiolinks")

注意:目前bioconductor上面的TCGAbiolinks还停留在2.24.3版本,你需要安装开发版本哦~

如果你安装不成功,可以下载到本地安装,如果你不会本地安装,请翻看b站视频:可能是最适合初学者的R包安装教程

使用

对网络有要求!

如果这一步都不成功,建议下面的就别运行了,因为很可能也不会成功。

# 查看TCGA中33种癌症的简称
library(TCGAbiolinks)

projects <- TCGAbiolinks::getGDCprojects()$project_id ##获取癌症名字
projects <- projects[grepl('^TCGA', projects, perl=TRUE)]

projects
##  [1] "TCGA-READ" "TCGA-UCS"  "TCGA-COAD" "TCGA-CESC" "TCGA-PAAD" "TCGA-ESCA"
##  [7] "TCGA-KIRP" "TCGA-PCPG" "TCGA-HNSC" "TCGA-BLCA" "TCGA-STAD" "TCGA-SARC"
## [13] "TCGA-CHOL" "TCGA-LAML" "TCGA-THYM" "TCGA-ACC"  "TCGA-SKCM" "TCGA-LUAD"
## [19] "TCGA-LIHC" "TCGA-KIRC" "TCGA-KICH" "TCGA-DLBC" "TCGA-PRAD" "TCGA-OV"  
## [25] "TCGA-MESO" "TCGA-LUSC" "TCGA-GBM"  "TCGA-UVM"  "TCGA-LGG"  "TCGA-BRCA"
## [31] "TCGA-TGCT" "TCGA-THCA" "TCGA-UCEC"

批量下载mRNA和lncRNA的数据

需要良好的网络环境,网络不好就别试了。全部数据40+G。

sapply(projects, function(project){
  
  # 查询
  query <- GDCquery(project = project,
                    data.category = "Transcriptome Profiling",
                    data.type = "Gene Expression Quantification",
                    workflow.type = "STAR - Counts"
                    )
  # 下载
  GDCdownload(query, method = "api", files.per.chunk = 100) #每次下载100个文件
  
  # 整理
  GDCprepare(query,save = T,save.filename = paste0(project,"_mRNA.Rdata"))
  }
  )

如果query能成功,但是下载成功,可以通过网页下载后,放在指定目录中,然后再运行GDCprepare函数也是可以成功的!

批量下载临床数据

也可以使用GDCquery_clinic()直接下载。

sapply(projects, function(project){
  
  query <- GDCquery(project = project,
                    data.category = "Clinical", 
                    file.type = "xml")
  GDCdownload(query)
  clinical <- GDCprepare_clinic(query, clinical.info = "patient")
  saveRDS(clinical,file = paste0(project,"_clinical.rds"))
})

使用方法做个小记录,可以通过不同的参数快速获取不同的临床数据:

clinical <- GDCprepare_clinic(query, clinical.info = "patient")

To get the following information please change the clinical.info argument
=> new_tumor_events: new_tumor_event 
=> drugs: drug 
=> follow_ups: follow_up 
=> radiations: radiation

批量下载miRNA

sapply(projects, function(project){
  
  query <- GDCquery(project = project,
                    data.category = "Transcriptome Profiling",
                    data.type = "miRNA Expression Quantification"
                    )
  
  GDCdownload(query)
  
  GDCprepare(query, save = T,save.filename = paste0(project,"_miRNA.Rdata"))
  
})

批量下载SNP

sapply(projects, function(project){
  
  query <- GDCquery(
    project = project, 
    data.category = "Simple Nucleotide Variation",
    data.type = "Masked Somatic Mutation",
    access = "open"
)
  
  GDCdownload(query)
  
  GDCprepare(query, save = T,save.filename = paste0(project,"_SNP.Rdata"))
  
})

批量下载CNV

sapply(projects, function(project){
  
  query <- GDCquery(
    project = project,
    data.category = "Copy Number Variation",
    data.type = "Masked Copy Number Segment",              
    access = "open"
)
  
  GDCdownload(query)
  
  GDCprepare(query, save = T,save.filename = paste0(project,"_CNV.Rdata"))
  
})

批量下载甲基化

数据太大了,只下载一个COAD的演示一下~

β值矩阵:

coad_methy <- GDCquery(
    project = "TCGA-COAD", 
    data.category = "DNA Methylation", 
    data.type = "Methylation Beta Value",
    platform = "Illumina Human Methylation 27" # Illumina Human Methylation 450
    )
GDCdownload(coad_methy)
GDCprepare(coad_methy,save = T,save.filename="COAD_METHY_beta.Rdata")

IDAT:

coad_methy <- GDCquery(
    project = "TCGA-COAD", 
    data.category = "DNA Methylation", 
    data.type = "Masked Intensities",
    platform = "Illumina Human Methylation 27", # Illumina Human Methylation 450
    legacy = FALSE
    )
GDCdownload(coad_methy)
GDCprepare(coad_methy,save = T,save.filename="COAD_METHY_idat.Rdata")

批量下载蛋白质数据

sapply(projects, function(project){
  
  query <- GDCquery(
    project = project,
    data.category = "Proteome Profiling",
    data.type = "Protein Expression Quantification"
    )
  
  GDCdownload(query)
  
  GDCprepare(query, save = T,save.filename = paste0(project,"_protein.Rdata"))
  
})

亲测可用,我下载了2天1夜......

除此之外,还有其他数据可用,大家可以去官网学习~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容