rna-seq 笔记
RNA序列标准化方法之RPKM FPKM和TPM之间的差异 观看的视屏 https://www.bilibili.com/video/BV1fw411P7w8/?spm_id_from=444.41.list.card_archive.click&vd_source=3731b9d4615d302c5cf30f0463b8eca4
直接比较 counts 是不科学的。counts 数量 有基因长度的影响 和测序深度的影响
所以需要对 counts 标准化
RPKM/FPKM and TРМ 这三个标准化 不能用于 不同样本之间的差异分析
RPKM:counts/基因组的总长度 归一化到基因总长 (counts/基因组的总长度)/每个基因的长度
TРМ:counts/每个基因的长度 归一化到基因长度 (counts/每个基因的长度)/基因组的总长度
学习的帖子 https://blog.csdn.net/leianuo123/article/details/112424578
RNAseq 测序,对于一个基因的Count 的计数呢,主要是基于匹配到该基因的外显子上的数目,那么按照这样理解的话,基因越长,比对到该基因(外显子)上的count 数就越多;而影响Count 的另一个因素就是测序深度,也就是该基因在测序的过程中每百万碱基检测到的数目,测序深度越大,那么本次RNA seq 中的所有read count都会增加,因在差异化以及探索表达量的过程中呢,需要对基因长度和测序深度进行标准化,消除这2个因素带来的影响,从而准确的确定基因在样本中是真实的差异表达。
imma,edgeR, DESeq2进行差异表达分析,要用原始counts矩阵。
FPKM可以用limma去运行,不过数值比较大的话要先进行log2转化。