2019-12-23

12/2学习内容(TCGA)

整理了之前的笔记,然后再操作一下关于TCGA的数据下载,刚好用上次老师完成的对24篇文献的处理进行处理,通过看了健明老师发的视频。

TCGA数据下载

下载安装包
if (!requireNamespace("BiocManager", quietly = TRUE))    
install.packages("BiocManager") 
BiocManager::install("TCGAbiolinks")#下载关键包"TCGAbiolinks"
install.packages("GDCquery")

数据下载之前特意去看了关于GDCquery函数的参数

发现GDCquery函数一共有11个参数:
1.project;#可以使用TCGAbiolinks:::getGDCprojects()$project_id)得到各个癌种的项目id,总共有45个ID值。
2.data.category;
3.data.type;
4.workflow.type;
5.legacy = FALSE;
6.access;
7.platform;
8.file.type;
9.barcode;
10.experimental.strategy;
11.sample.type
关于参数
1.project

可以使用TCGAbiolinks:::getGDCprojects()$project_id)得到各个癌种的项目id,总共有45个ID值。

如:将要下载的肝癌项目编号为project="TCGA-LIHC"

TCGAbiolinks:::getGDCprojects()$project_id
[1] "TCGA-READ" "TARGET-CCSK" "TCGA-MESO" "TCGA-CHOL"
[5] "NCICCR-DLBCL" "TARGET-WT" "TCGA-TGCT" "TCGA-PRAD"
[9] "TCGA-LAML" "TCGA-ESCA" "TCGA-SARC" "TCGA-ACC"
[13] "TCGA-PAAD" "TCGA-BLCA" "TCGA-KICH" "FM-AD"
[17] "TCGA-LUSC" "TCGA-THYM" "TCGA-GBM" "TCGA-UCEC"
[21] "TCGA-COAD" "TCGA-LUAD" "TARGET-AML" "TARGET-NBL"
[25] "TCGA-DLBC" "TCGA-UVM" "TCGA-THCA" "TARGET-OS"
[29] "TCGA-LGG" "TCGA-STAD" "TCGA-LIHC" "TCGA-CESC"
[33] "TCGA-HNSC" "TCGA-KIRC" "VAREPOP-APOLLO" "TCGA-SKCM"
[37] "TCGA-BRCA" "TCGA-OV" "TCGA-PCPG" "CTSP-DLBCL1"
[41] "TCGA-UCS" "CPTAC-3" "TCGA-KIRP" "TARGET-RT"
[45] "TARGET-ALL-P3"

2.data.category

可以使用TCGAbiolinks:::getProjectSummary(project)查看project中有哪些数据类型,如查询"TCGA-LIHC",有7种数据类型(就是前面群主视频多次提到的数据类型),case_count为病人数,file_count为对应的文件数。小编要下载表达谱,所以设置data.category="Transcriptome Profiling"

TCGAbiolinks:::getProjectSummary("TCGA-LIHC")
$data_categories
case_count file_count data_category
1 376 2122 Transcriptome Profiling
2 376 1537 Copy Number Variation
3 375 3032 Simple Nucleotide Variation
4 377 430 DNA Methylation
5 377 423 Clinical
6 377 1637 Sequencing Reads
7 377 1634 Biospecimen

3.data.type

筛选要下载的文件的数据类型。没有命令可以查看data.type里都有哪些数据类型,但是根据官网连接,如下表图,和所查资料,我们可以总结出常用的data.type都有:

下载rna-seq的counts数据

data.type = "Gene Expression Quantification"

下载miRNA数据

data.type = "miRNA Expression Quantification"

下载Copy Number Variation数据

data.type = "Copy Number Segment"
这里下载表达谱为data.type = "Gene Expression Quantification"

1556293360665.png
1556293360665.png

4.workflow.type

不同的数据类型,有其对应的参数可供选择。

workflow.type 有三种类型分别为:

HTSeq - FPKM-UQ:FPKM上四分位数标准化值

HTSeq - FPKM:FPKM值/表达量值

HTSeq - Counts:原始count数

小编需要下载count数,所以workflow.type=“HTSeq - Counts”。

5.legacy = FALSE

这个参数主要是因为TCGA数据有两个入口可以下载,GDC Legacy Archive 和 GDC Data Portal,区别主要是注释参考基因组版本不同分别是:GDC Legacy Archive(hg19和GDC Data Portal(hg38)。参数默认为FALSE,下载GDC Data Portal(hg38)。这里小编的建议是,下载转录组层面的数据使用hg38,下载DNA层面的数据使用hg19,因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的。

1556293412665.png
1556293412665.png

6.access

数据开放和不开放,有两个参数:controlled, open。

我们这里使用:access=“open”

7.platform

这里涉及到的平台种类非常多,可以具体去官网看每种数据都有什么平台的可以下载。这个参数可以省略不设置。

1556293428897.png
1556293428897.png

8.file.type

主要是在GDC Legacy Archive下载数据的时候使用,可以参考官网说明。这里小编在GDC Data Portal下载数据,所以该参数省略不设置。

9.barcode

A list of barcodes to filter the files to download。可以根据这个参数设置只下载某个样本等。如:

barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01")

10.experimental.strategy

两个下载入口参数选择

GDC Data Portal:WXS, RNA-Seq, miRNA-Seq, Genotyping Array.

Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq

11.sample.type

A sample type to filter the files to download,可以对样本类型进行过滤下载。这里我要下载所有样本类型数据,不设置。部分值选择如下(全部可以查看官网):如sample.type = "Recurrent Solid Tumor"

数据下载
#先从数据库里找到符合各项参数要求的数据
query <- GDCquery(project = "TCGA-LIHC", 
                 legacy = FALSE, 
                 experimental.strategy = "RNA-Seq", 
                 data.category = "Transcriptome Profiling", 
                 data.type = "Gene Expression Quantification", 
                 workflow.type = "HTSeq - Counts")

#再使用命令GDCdownload()下载
GDCdownload(query)
获取表达矩阵
dataAssay = GDCprepare(query.count, summarizedExperiment = F)
rownames(dataAssay) = as.character(dataAssay[,1])
# dataAssay就是矩阵了,它此时在R的环境变量里、也就是在计算机内存中。你可以在R中对它进行进一步的分析。
# 也可以用write.table或write.csv命令把它从R里保存出来到硬盘,并保存为csv的格式,就可以用excel打开了。
write.csv(dataAssay, "TCGA-matrix.csv")  # 此时,保存的文件名为“TCGA-matrix.csv”

再看视频当中结合晚上资料去理解

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容