RNAseq-踩坑03 -- 差异分析要用 read_count

COUNT: 高通量测序中比对到exon上的reads数。
FPKM: Fragments Per Kilobase of exon model per Million mapped fragments
TPM:Transcripts Per Kilobase of exonmodel per Million mapped reads

一个基因的基因长度越长，测序深度越深，那么reads可能map到该段基因序列上的就越多，reads count就越大，因此单独根据count来说明基因的表达量是没有意义的，我们需要看的是一个相对的表达量，这样，就需要对其影响因素（基因长度，测序深度）进行标准化，消除其影响因素变动带来的影响，所以就有了FPKM,TPM值。

每个基因的长度都是不一样的，每个实验批次的测序深度（测到的基因数目）也都是在波动的，因此，不进行标准化的表达差异比较是有很大误差的。

转化关系

计算公式

优缺点

Count
优点：可有效说明该区域是否真的有表达及真实的表达丰度。能够近似呈现真实的表达情况。有利于实验验证。
缺点：由于exon长度不同，难以进行不同exon丰度比较；由于测序总数不同，难以对不同测序样本间进行比较。
TPM
优点：首先消除exon长度造成的差异，随后消除样本间测序总reads count不同造成的差异。
缺点：因为不是采用比对到基因组上的总reads count，所以特殊情况下不够准确。例如：某突变体对exon造成整体影响时，难以找出差异。

使用场景：

COUNT: 不同样本中的基因表达差异分析
FPKM/RPKM: 不可以做差异分析！！！在进行差异分析时，同一个基因在不同样本中的表达差异根本不需要考虑这条基因的长度！！！比较同一个样本中所有基因谁的表达量更高更强，还是要FPKM出马。以及你熟悉的样品相关性分析、热图和WGCNA，他们通通都需要FPKM的支持！
TPM: 可以用于同一物种不同组织的比较,在单基因分析中，一般推荐使用TPM