运用TCGAbiolinks下载癌症RNAseq数据

作为非专业人士,生信对本人来讲,是一个实用性较高的方法。本人目前从事的科研工作是癌症转录组方向,主要是miRNA、LncRNA等非编码RNA。分析表达差异应该是科研工作的第一步,今天我通过自身的亲测,为大家浅显地叙述一下我的操作。

首先,我们从TCGA里下载某种癌症的RNAseq数据,代码如下:

##使用TCGAbiolinks从GDC Data Portal上下载
BiocManager::install("TCGAbiolinks")
library(TCGAbiolinks)
TCGA_ID="TCGA-THCA"
download_tcga=function(TCGA_ID){
  query = GDCquery(project = TCGA_ID, legacy = FALSE, experimental.strategy = "RNA-Seq", data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "HTSeq - Counts")
  GDCdownload(query)
  #GDCprepare: Reads the data downloaded and prepare it into an R object
  dataAssy = GDCprepare(query)
  expMatrix <- TCGAanalyze_Preprocessing(dataAssy)
  save(expMatrix,file = paste0(TCGA_ID,"_RNAseq.rda"))
}
download_tcga(TCGA_ID)
load("TCGA-THCA_RNAseq.rda")

上面的代码用了函数封装的方法,使用起来方便、简洁,只需更改TCGA_ID即可。下载好的数据可以用rda文件储存,rda是rdata的简写,由load("数据名.rda")读取。

关于从RNAseq中分离mRNA和LncRNA,我们下回分解。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容