小编发现我们经常使用的TCGA数据库,大概在2022年4月初进行了更新。以前RNAseq数据使用的是Htseq-counts,新版本中使用了STAR-counts。在上一期中,小编给大家详细介绍了新旧版本RNAseq数据之间的差异。
☞ TCGA数据库悄咪咪更新了—RNAseq没有HTSeq-Counts了
今天小编就来给大家讲讲怎么使用R来合并新版TCGA数据库中的RNAseq数据。整体思路其实跟旧版处理方式差不多,只是RNAseq合并的代码需要进行修改。(注意:如何合并TCGA表达谱数据 中的代码不适用新版TCGA的RNAseq数据,思路可以参考)
我们只需要修改RNAseq数据合并的代码,因为miRNA-seq的数据格式没有改变。可以参考下文下载miRNA的表达谱数据。
我们还是以TCGA-CHOL这套数据为例,来看看具体步骤
- 下载RNAseq数据
可以参考下文中的方法进行下载
☞ TCGA数据库悄咪咪更新了—RNAseq没有HTSeq-Counts了
我们需要下载sample sheet
以及Cart中的所有样本的star_gene_counts.tsv文件
2. 创建一个文件夹,我这里创建了一个名为TCGA_CHOL的文件夹。然后将下载得到的sample sheet文件copy过来,修改名字成RNAseq_sample_sheet.tsv。在TCGA_CHOL下面再创建一个名为RNAseq的文件夹。将下载得到的gdc_download_20220406_054824.668087.tar.gz文件copy到RNAseq文件夹中,解压出所有的counts文件。文件夹结构如下
RNAseq文件夹里面是解压gdc_download_20220406_054824.668087.tar.gz得到的44个文件夹,每个文件夹里面会有一个star_gene_counts.tsv为后缀的文件。
3. 运行文末R代码进行合并。思路是根据sample sheet中的文件名,循环读取每一个star_gene_counts.tsv文件。我们可以根据后续的分析需求去提取STAR-counts, TPM, FPKM或者FPKM_UQ。
然后按列将读取的所有样本的数据合并起来就可以得到RNAseq的表达谱矩阵了。合并得到的STAR-counts矩阵如下
合并得到的TPM矩阵如下
合并得到的FPKM矩阵如下
合并得到的FPKM_UQ矩阵如下
关于下游的差异表达分析,我们还是可以参考前面讲过的方法
更多基于TCGA数据库的挖掘,可以参考下面的系列课程
完整合并R代码+详细注释+CHOL数据见下文。包含RNAseq和miRNA-seq数据合并代码。