7种常见的标准化方法,它们分别是:
1. Total count,TC
2. Upper Quartile, UQ
3. Median, Med
4. DESeq:前提假设大多数基因不是差异表达的基因,该方法可使用DESeq Bioconductor package。
5. Trimmed Mean of M-values(TMM): 前提假设大多数基因不是差异表达的基因,该方法可使用edgeR Bioconductor package。
6. Quantile (Q):可使用Bioconductor包limma的normalizaQuantiles()功能。
7. Reads Per Kilobase Per Million mapped reads (RPKM),可使用cufflinks。
所有这些方法又可根据其原理而分为两类,第一类基于库的大小(TMM,DESeq),第二类基于read数目的分布(TC,UQ,Med,Q,RPKM)。
第一类中的TMM,DESeq的前提假设都是大多数基因的表达是没有差异的,然后,基于这个假设根据均值,或者中值,比例等提出一个标准化的因子进行标准化。
但是对于TMM这种方法,比例的计算是根据每次测序的数据和参考数据进行比较;而DESeq却是考虑了所有的样本。
第二类标准化的方法的前提则是read数目的分布应该具有相似性,或者是单四分位数(TC,Med,UQ,RPKM),或者是全部的四分位数(Q)。
1. 最好的两种标准化方法:DESeq和edgeR的TMM
http://blog.genesino.com/2018/05/deseq2/
http://www.oebiotech.com/Mobile/MArticles/ghjsrnacxs.html
http://yangfangs.github.io/2016/04/10/RNAseq-edgeR-DEgenes-analysis/
- TMM scaling normalization for count matrix(TMM方法均一化count矩阵)
分析模块,采用edgeR的TMM(trimmed mean of M-values)方法对测序片段计数矩阵(Count Matrix)进行标准化处理。
如果不提供基因的长度信息文件,将只进行TMM标准化处理。
如果提供基因的长度信息文件,将使用TMM方法将Count数据转换为FPKM数据,输出FPKM矩阵。
注:标准化处理之后的矩阵可用于PCA、热图、聚类分析等。
TMM方法均一化count矩阵
http://www.yunbios.net/h-nd-376.html
输入:
1、测序片段计数矩阵(Count Matrix)。
示例:
T4 T5 T6 T7 T8 T9
BM590_A0001 565 505 843 286 247 1909
BM590_A0002 362 295 512 124 118 876
BM590_A0003 235 213 333 126 47 1021
BM590_A0004 291 325 447 404 878 1600
BM590_A0005 530 607 848 709 1194 2001
BM590_A0006 456 425 786 287 139 1857
BM590_A0007 21 16 27 1 3 26
BM590_A0008 282 252 425 85 46 843
2、基因长度信息文件(可选),其中第一列为基因名称、第二列为对应的序列长度。
示例:
BM590_A0001 1584
BM590_A0002 1131
BM590_A0003 1155
BM590_A0004 783
BM590_A0005 957
输出: TMM标准化处理后的矩阵(Matrix)。
示例:
T4 T5 T6 T7 T8 T9
BM590_A0001 390.11 379.54 386.52 288.73 372.47 327.73
BM590_A0002 350.06 310.51 328.78 175.32 249.21 210.62
BM590_A0003 222.52 219.54 209.39 174.45 97.20 240.38
BM590_A0004 406.46 494.13 414.62 825.09 2678.41 555.67
BM590_A0005 605.70 755.09 643.55 1184.73 2980.14 568.58
BM590_A0006 306.72 311.16 351.08 282.26 204.19 310.56
BM590_A0007 263.99 218.94 225.39 18.38 82.37 81.27
BM590_A0008 284.78 277.01 285.01 125.51 101.45 211.67