2019-12-24TCGA 2.0

12/2学习内容(TCGA 2.0)

上午

继续阅读关于老师发的文献,不过这次老师发的文献感觉有点难理解了,需要一定的知识储备,所以阅读的时候不懂有去谷歌一下,所以阅读起来就慢了一点

下午

想把之前的那个TCGA的流程再搞一搞,争取理解明白。不过在阅读公众号和博客的时候发现一个强大的包,感觉还不错,就进行了操作,下面是GDCRNATools包的下载数据教程

3 GDCRNATools套餐安装

​ 可以通过运行以下命令来安装稳定发行版:

## try http:// if https:// URLs are not supported
if (!requireNamespace("BiocManager", quietly=TRUE))
    install.packages("BiocManager")
BiocManager::install("GDCRNATools")

​ 要安装开发版本,请将R and Biocondutor更新到最新版本并运行:

if (!requireNamespace("BiocManager", quietly=TRUE))
    install.packages("BiocManager")
BiocManager::install("GDCRNATools", version = "devel")
library(GDCRNATools)

4快速入门

在中GDCRNATools,内置了一些功能供用户有效下载和处理GDC数据。用户还可以使用自己的数据,这些数据由其他工具处理,例如UCSC Xena GDC集线器TCGAbiolinks (Colaprico et al.2016)或TCGA-Assembler (Zhu,Qiu和Ji 2014)等。

在这里,我们使用一个小的数据集来显示ceRNAs网络分析的最基本步骤。每个步骤的更详细说明在“ 案例研究”部分中。

4.1数据准备

HTSeq-Counts数据的标准化

library(DT)

### load RNA counts data
data(rnaCounts)

### load miRNAs counts data
data(mirCounts)
####### Normalization of RNAseq data #######
rnaExpr <- gdcVoomNormalization(counts = rnaCounts, filter = FALSE)

####### Normalization of miRNAs data #######
mirExpr <- gdcVoomNormalization(counts = mirCounts, filter = FALSE)

解析元数据

####### Parse and filter RNAseq metadata #######
metaMatrix.RNA <- gdcParseMetadata(project.id = 'TCGA-CHOL',
                                   data.type  = 'RNAseq', 
                                   write.meta = FALSE)

metaMatrix.RNA <- gdcFilterDuplicate(metaMatrix.RNA)
metaMatrix.RNA <- gdcFilterSampleType(metaMatrix.RNA)
datatable(as.data.frame(metaMatrix.RNA[1:5,]), extensions = 'Scroller',
        options = list(scrollX = TRUE, deferRender = TRUE, scroller = TRUE))

搜索:

文件名 file_id 患者 样品 Submitter_id entity_submitter_id sample_type 性别 年龄诊断 肿瘤阶段 肿瘤等级 days_to_death days_to_last_follow_up vital_status project_id
TCGA-3X-AAV9-01A 725eaa94-5221-4c22-bced-0c36c10c2c3b.htseq.counts.gz 85bc7f81-51fb-4446-b12d-8741eef4acee TCGA-3X-AAV9 TCGA-3X-AAV9-01 TCGA-3X-AAV9-01A TCGA-3X-AAV9-01A-72R-A41I-07 原发性肿瘤 26349 阶段I 339 TCGA-CHOL
TCGA-3X-AAVA-01A b6a2c03a-c8ad-41e9-8a19-8f5ac53cae9f.htseq.counts.gz 42b8d463-6209-4ea0-bb01-8023a1302fa0 TCGA-3X-AAVA TCGA-3X-AAVA-01 TCGA-3X-AAVA-01A TCGA-3X-AAVA-01A-11R-A41I-07 原发性肿瘤 18303 舞台 445 TCGA-CHOL
TCGA-3X-AAVB-01A c2765336-c804-4fd2-b45a-e75af2a91954.htseq.counts.gz 6e2031e9-df75-48df-b094-8dc6be89bf8b TCGA-3X-AAVB TCGA-3X-AAVB-01 TCGA-3X-AAVB-01A TCGA-3X-AAVB-01A-31R-A41I-07 原发性肿瘤 25819 阶段性 402 TCGA-CHOL
TCGA-3X-AAVC-01A 8b20cba8-9fd5-4d56-bd02-c6f4a62767e8.htseq.counts.gz 19e8fd21-f6c8-49b0-aa76-109eef46c2e9 TCGA-3X-AAVC TCGA-3X-AAVC-01 TCGA-3X-AAVC-01A TCGA-3X-AAVC-01A-21R-A41I-07 原发性肿瘤 26493 阶段I 709 TCGA-CHOL
TCGA-3X-AAVE-01A 4082f7d5-5656-476a-9aaf-36f7cea0ac55.htseq.counts.gz 1ace0df3-9837-467e-85de-c938efda8fc8 TCGA-3X-AAVE TCGA-3X-AAVE-01 TCGA-3X-AAVE-01A TCGA-3X-AAVE-01A-11R-A41I-07 原发性肿瘤 21943 舞台 650 TCGA-CHOL

显示5个条目中的1-5个

4.2 ceRNAs网络分析

鉴定差异表达基因(DEG)

DEGAll <- gdcDEAnalysis(counts     = rnaCounts, 
                        group      = metaMatrix.RNA$sample_type, 
                        comparison = 'PrimaryTumor-SolidTissueNormal', 
                        method     = 'limma')
datatable(as.data.frame(DEGAll), 
        options = list(scrollX = TRUE, pageLength = 5))
符号 日志FC AveExpr Ť 罗斯福
ENSG00000143257 NR1I3 protein_coding -6.9168253303911 7.02312879999841 -17.290860517483 4.24435471535975e-22 2.41928218775506e-19 40.0428794972668
ENSG00000205707 ETFRF1 protein_coding -2.49218157877227 9.51599650308333 -16.0675281445046 8.35325586851415e-21 2.38067792252653e-18 37.1975058932658
ENSG00000134532 SOX5 protein_coding -4.87111820944092 6.22822704823733 -15.0358907798233 1.16874593482166e-19 2.22061727616116e-17 34.4982800309858
ENSG00000141338 ABCA8 protein_coding -5.65379410618959 7.52058085084197 -14.8606853150024 1.85151852120375e-19 2.63841389271535e-17 34.1158106917837
ENSG00000066583 ISOC1 protein_coding -2.37013127019847 10.4661940943542 -14.5653242812861 4.05395903332572e-19 4.62151329799132e-17 33.3563998870241

显示565条目中的1至5

上一页12345… 113下一页

### All DEGs
deALL <- gdcDEReport(deg = DEGAll, gene.type = 'all')

### DE long-noncoding
deLNC <- gdcDEReport(deg = DEGAll, gene.type = 'long_non_coding')

### DE protein coding genes
dePC <- gdcDEReport(deg = DEGAll, gene.type = 'protein_coding')

DEG的ceRNAs网络分析

ceOutput <- gdcCEAnalysis(lnc         = rownames(deLNC), 
                          pc          = rownames(dePC), 
                          lnc.targets = 'starBase', 
                          pc.targets  = 'starBase', 
                          rna.expr    = rnaExpr, 
                          mir.expr    = mirExpr)
## Step 1/3: Hypergenometric test done !
## Step 2/3: Correlation analysis done !
## Step 3/3: Regulation pattern analysis done !
datatable(as.data.frame(ceOutput), 
          options = list(scrollX = TRUE, pageLength = 5))

搜索:

核糖核酸 基因 计数 listTotal 流行 popTotal foldEnrichment hyperPValue 微小RNA 肺心病 价值 regSim sppc
1个 ENSG00000234456 ENSG00000107864 2 2 95 277 2.91578947368421 0.116805315753675 hsa-miR-374b-5p,hsa-miR-374a-5p 0.673743160640659 1.96357934602162e-7 0.348159146921007 -0.00796286536619112
2 ENSG00000234456 ENSG00000135111 2 2 24 277 11.5416666666667 0.0072202166064982 hsa-miR-374b-5p,hsa-miR-374a-5p 0.646730687388315 7.94394469982837e-7 0.887824907942123 0.000618576702863805
3 ENSG00000234456 ENSG00000165672 2 2 8 277 34.625 0.000732485742688222 hsa-miR-374b-5p,hsa-miR-374a-5p 0.462611638256242 0.00068804277886866 0.42891988840537 0.0000710020933214484
4 ENSG00000234456 ENSG00000100934 2 2 20 277 13.85 0.00497043896824151 hsa-miR-374b-5p,hsa-miR-374a-5p 0.708034965259449 2.66531676689658e-8 0.373352080377257 -0.0084304674105859
5 ENSG00000234456 ENSG00000117500 2 2 28 277 9.89285714285714 0.00988855752629099 hsa-miR-374b-5p,hsa-miR-374a-5p 0.619591906145269 0.00000283650932376371 0.405166803044555 -0.00123287038918679

显示453条目中的1至5

上一页12345… 91下一页

将ceRNAs网络导出到Cytoscape

ceOutput2 <- ceOutput[ceOutput$hyperPValue<0.01 
    & ceOutput$corPValue<0.01 & ceOutput$regSim != 0,]
### Export edges
edges <- gdcExportNetwork(ceNetwork = ceOutput2, net = 'edges')
datatable(as.data.frame(edges), 
        options = list(scrollX = TRUE, pageLength = 5))
### Export nodes
nodes <- gdcExportNetwork(ceNetwork = ceOutput2, net = 'nodes')
datatable(as.data.frame(nodes), 
        options = list(scrollX = TRUE, pageLength = 5))

把ceRNAs网络导出Ctoscape,然后对比文章的,看自己做的是否有差异。
(争取把这个折腾会 )。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容