imma,edgeR,DESeq2三大包基本是做转录组差异分析的金标准,大多数转录组的文章都是用这三个R包进行差异分析。edgeR差异分析速度快,得到的基因数目比较多,假阳性高(实际不差异结果差异)。DESeq2差异分析速度慢,得到的基因数目比较少,假阴性高(实际差异结果不差异)。 需要注意的是制作分组信息的因子向量是,因子水平的前后顺序,在R的很多模型中,默认将因子向量的第一个水平看作对照组。Limma-voom强大在于三个方面:False discovery rate比较低(准确性),异常值影响小;假阳性控制不错;运算很快。
如果是芯片数据,一般选择limma,它是处理芯片数据之王。 不过edgeR也可以。芯片数据默认符合正态分布,而limma正是基于正态分布。甲基化数据就是芯片数据。
如果是二代测序的原始count值,一般选择DESeq或edgeR。注意这两者只能处理count,不能处理FPKM等矫正后的数据。二代测序数据符合柏松分布,理论上不能用T检验,只能用非参数检验(秩和),但是统计力度不够,所以还是得用经过矫正后的参数检验。
如果是FPKM等矫正后的表达量,可以用cuffdiff
Sum: 基于以上,对于二代测序数据,先拿到原始count值进行DESeq2差异分析,再转换成TPM进行下游分析。不建议用edgeR和cuffdiff。