做RNA-seq可以比较不同样本之间基因表达水平的差异,那么如何衡量基因的表达水平呢?
最简单的方法是,直接比较mapping到某一个基因的reads数目。但是这种做法有不足:
基因长度差异引起误差:如果一个gene1的外显子长度是gene2的10倍,在某组织内两个基因同样产生一个转录本,建库测序后mapping到gene1的reads数远高于gene2,造成了误差。
测序深度引起误差:相同材料分两份同时建库,假设材料1公司返回数据包含100w条reads,材料2公司返回数据包含200w条reads,mapping到同样一个基因的reads数,材料2大概是材料1的两倍。
为此,通用的做法是用外显子长度和reads总数目来校正,以下是几个衡量表达量的单位:
1.RPKM(主要针对单端测序)
RPKM= total exon reads/ (mapped reads (Millions) * exon length(KB))
mapping到gene1外显子的reads/(mapping到基因组的reads数目*gene1外显子长度)
2.FPKM(主要针对双端测序)
fragments的概念:pair-end reads两个reads都比对上,这一对reads算一个fragment;只有其中一个reads比对上,比对上的reads算一个fragment,所以2*fragments数>reads数
FPKM= total exon fragments/ (mapped reads (Millions) * exon length(KB))
mapping到gene1外显子的fragments/(mapping到基因组的reads数目*gene1外显子长度)
3.TPM
TPMi = ( Ni/Li )*1000000 / Σ Nj/Lj
Ni是mapping到genei的reads数,Li是genei的外显子长度。TPM的定量思路是,每一个检测到表达的gene都用外显子长度进行校正,然后看某一个gene所占的比例。我们其实可以发现,其实TPM就是FPKM值的百分比,参考(http://www.bio-info-trainee.com/2017.html)
做RNA-seq,我们会得到一个纵轴是gene,横轴是样品的表达矩阵,如果用RPKM/FPKM定量,材料i所有基因的表达量之和与材料j的不一定相同(表达矩阵的两列),不适合材料之间的比较,可用于同一材料比较不同基因的表达水平;用TPM定量,任意材料所有基因的表达量之和都是1,可用于比较不同材料间的基因表达。