初学RNA-seq,用于有参原核转录组的分析,主要参照DESeq2说明书:(Analyzing RNA-seq data with DESeq2)和(RNA-seq workflow: gene-level exploratory
analysis and differential expression)。reads的count矩阵来源于featureCounts的结果,为原始mapping上的reads数,其格式如下:
接下来构建DESeq2分析所需的分组信息,分组信息包括了实验的分组情况和平行样的情况。比如在我使用的数据中R0_1和R0_2是同一个处理的两个平行样,而R0,R16,R24和R32是不同的处理(就是不同培养时间的样本)。那么分组信息可以按照如下格式构建为dataframe
coldata<-data.frame(batch=c("r1", "r2", "r1", "r2", "r1", "r2", "r1", "r2"), condition=c("R0", "R0", "R16", "R16", "R24", "R24", "R32", "R32"), stringsAsFactors = T)
格式如下:
在构建DESeq数据集时,使用design参数告诉DESeq分组信息:
library(DESeq2)
dds <- DESeqDataSetFromMatrix(countData, colData=coldata, design= ~ batch+condition)
至此,完成了从featureCounts原始数据到R中DESeq2分析所需数据集的建立。可以使用colData命令查看分组是否正确:
也可以直接运行dds显示数据集的信息:
其中:
class:DESeqDataSet #类别为DEseq数据集
dim:5846 8 #数据集共5846行,8列
assays(1): counts # 分析数据为readscount
colData names(2): batch condition #分组信息的名字