RNAseq-踩坑03 -- 差异分析 要用 read_count

  • COUNT: 高通量测序中比对到exon上的reads数。
  • FPKM: Fragments Per Kilobase of exon model per Million mapped fragments
  • TPM:Transcripts Per Kilobase of exonmodel per Million mapped reads

一个基因的基因长度越长,测序深度越深,那么reads可能map到该段基因序列上的就越多,reads count就越大,因此单独根据count来说明基因的表达量是没有意义的,我们需要看的是一个相对的表达量,这样,就需要对其影响因素(基因长度,测序深度)进行标准化,消除其影响因素变动带来的影响,所以就有了FPKM,TPM值。

每个基因的长度都是不一样的,每个实验批次的测序深度(测到的基因数目)也都是在波动的,因此,不进行标准化的表达差异比较是有很大误差的。

转化关系

计算公式

优缺点

  • Count
    优点:可有效说明该区域是否真的有表达及真实的表达丰度。能够近似呈现真实的表达情况。有利于实验验证。
    缺点:由于exon长度不同,难以进行不同exon丰度比较;由于测序总数不同,难以对不同测序样本间进行比较。
  • TPM
    优点:首先消除exon长度造成的差异,随后消除样本间测序总reads count不同造成的差异。
    缺点:因为不是采用比对到基因组上的总reads count,所以特殊情况下不够准确。例如:某突变体对exon造成整体影响时,难以找出差异。

使用场景

  • COUNT: 不同样本中的基因表达差异分析
  • FPKM/RPKM: 不可以做差异分析!!!在进行差异分析时,同一个基因在不同样本中的表达差异根本不需要考虑这条基因的长度!!!比较同一个样本中所有基因谁的表达量更高更强,还是要FPKM出马。以及你熟悉的样品相关性分析、热图和WGCNA,他们通通都需要FPKM的支持!
  • TPM: 可以用于同一物种不同组织的比较,在单基因分析中,一般推荐使用TPM
count

RPKM/FPKM

TPM
  • TPM 可以进行样本间的比较

参考博客:
https://www.jianshu.com/p/751487db59b5?utm_campaign=hugo
http://www.360doc.com/content/18/0112/02/50153987_721216719.shtml
https://www.sohu.com/a/446981070_120380672

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

相关阅读更多精彩内容

友情链接更多精彩内容