count normalization的方法

count normalization的方法

这应该会是一个小系列,我会简单介绍下现在的一些count normaliztion的方法,以及对应的代码解释、思考,从而最后得出我所认为比较适合的count normaliztion的方法。

这个部分我会介绍下Count nromaliztion需要考虑的因素、以及一些方法

Count normaliztion需要考虑的因素

首先我们需要明确的一点是如果你的Seq count如果没有经过矫正的话,那么不管是组内还是组间的基因比较,都是不可取的。所以,为了让Gene count能够在组间或者组内进行比较,我们需要考虑一些因素,然后根据这些因素来对我们的count进行normalize,从而来让组间或者组内的基因比较变得更加地合理。

Sequencing depth(测序深度)

image

我们在图中可以看到,Sample A中的Gene reads counts都基本上是Sample B中的reads counts的两倍,但这并不意味着Sample A中的Gene表达量就要比Sample B中的高,因为Sample A自身的测序深度就要比Sample B高(通俗来说,就是Sample A可能测了10G,而Sample B测了5G)

Gene length(基因长度)

image

Gene length在进行组内比较的时候,也是一个重要的因素。可能实际上Gene X跟Gene Y的分子数是差不多的,但因为 Gene X的长度更长,所以其对应的counts就越多。

RNA composition

image

RNA composition也是一个重要的因素。以上图为例,我们可以看到Sample A的total reads counts是远大于Sample B的,所以我们就可以考虑Sample A和B都除以其total reads counts,这样得到的就是每个基因所占全部基因的比例了(其实就是CPM,还是比较合理的 :))。

就像你的资产是1w人民币,而你美国朋友的资产是2k美元, 你想比较下谁更有钱,但直接比是不太恰当的。这时候就可以考虑你的资产除以中国全部的资产,你美国朋友的资产除以美国全部的资产。比如你是1%,而你美国朋友是5%,那我们就有理由相信他更有钱一点。

但这样其实有个很大的问题就是,Sample A和Sample B的RNA composition是非常不一样的,Sample A中的Gene DE占据了total counts中的大部分,这样就会压缩Gene X、Y、Z的比例,从而让X、Y、Z无辜地 “被” 降低了表达量。因为我们算的是"the proportion of the total count for each gene",proportion总和加起来肯定是1,DE如果占据了大部分,那么对应的剩下就肯定会“少了”。

这个问题其实也引出了TPM、FPKM、CPM等根据proportion矫正的方法的一些局限性,这一点我会在后面思考的部分提到。

当然,我还见过有考虑测序文库的reads length因素的……但我不知道为啥要考虑这个

三张图的来源是:Introduction to DGE

其实在考虑normaliztion factor的时候,还有一个很有意思的点,即我们其实真正关心的是molecule counts但我们几乎是无法知道Gene真正的molecule counts的。对应的,我们只能对Gene molecular进行破碎建库,然后进行抽样测序,用reads count来表征对应的Gene molecular counts(其实这也就是用样本分布来代表总体分布)。在这其中,除了我们上述提到的factor之外,还会有诸多的问题,包括Gene与isoform的关系,Reads multi-mapped,library sequence complexity等等问题。

Count nromaliztion所用的方法

这里我用一张表来先来总结下

Normalization method Description Accounted factors Recommendations for use
CPM (counts per million) counts scaled by total number of reads sequencing depth gene count comparisons between replicates of the same sample group; NOT for within sample comparisons or DE analysis
TPM (transcripts per kilobase million) counts per length of transcript (kb) per million reads mapped sequencing depth and gene length gene count comparisons within a sample or between samples of the same sample group; NOT for DE analysis
RPKM/FPKM (reads/fragments per kilobase of exon per million reads/fragments mapped) similar to TPM sequencing depth and gene length gene count comparisons between genes within a sample; NOT for between sample comparisons or DE analysis
DESeq2’s median of ratios [1] counts divided by sample-specific size factors determined by median ratio of gene counts relative to geometric mean per gene sequencing depth and RNA composition gene count comparisons between samples and for DE analysis; NOT for within sample comparisons
EdgeR’s trimmed mean of M values (TMM) [2] uses a weighted trimmed mean of the log expression ratios between samples sequencing depth, RNA composition, and gene length gene count comparisons between and within samples and for DE analysis

关于TMM能根据gene length矫正,从而进行组内基因的比较,我好像还没听说过……不过可能是我没怎么细看吧

表来自:Introduction to DGE

CPM

公式:
CPM_i=\frac{X_i}{N}10^6

X_i是对应基因的count值,而N则是你整个文库count。之所以还有乘上10^6只是单纯的有些比例太小了,乘上10^6才会变成个位数。然后之所以是10^6这个数字,我盲猜是因为最一开始的时候文库最终得到的数目一般是几M,得到的最小count是个位数。然后我们得到百分比之后,再乘上 10^6 刚好大部分基因都可以回复到原来的位数。

CPM (counts per million,有时候也叫RPM, Reads per million mapped reads) 其实就是单纯根据测序深度来进行矫正,但我个人觉得“根据测序深度矫正“解释不好。我更偏爱的解释是CPM展示的是这个基因在这个样本测序文库中的比例,也只有这个解释,才可以帮助我们更好地理解后面的TPM、FPKM。

CPM 这里还有一个问题就是,你如何定义N这个值。在普通的RNA-Seq中,我们可以认为 N 是你基因count数目的总和,亦或是mapped reads,(虽然这也是值得商榷的,因为如果你的基因组组装的稀烂,或者注释稀烂的话,那么不管是基因count数目的总和,或者mapped reads的总和,都不能充分定量你文库中的分子数目)。

在 ChIP-Seq 或者 ATAC-Seq 中,这个N更是一个很难定义的问题,你是数你Peak所含的count呢,还是数整个bam文件里面的count呢。

TPM

公式:
TPM_i=\frac{\frac{X_i}{l_i}}{\sum_j\frac{X_j}{l_j}}10^6

X_i 是对应基因的count值,而l_i则是基因的长度。\sum_j\frac{X_j}{l_j} 这个则是 每个基因count除对应基因长度 的值的总和。

我上面在CPM中说过,我们可以通过 基因在这个样本测序文库中的比例 来对不同文库的测序深度进行矫正,但有一个问题是 如果基因A是30k,count是100,而基因B是300bp,count是50,我们能说基因A比基因B表达量高么,那肯定是不能的。因为基因A的长度是基因B的100倍,理论上来说count应该也是100倍。但现在 基因A的count 只是 基因B 的2倍而已。所以我们在考虑 基因在这个样本测序文库中的比例 也应该考虑基因长度这个问题。

用我之前那个中国和美国人资产比较例子的话,就是 我们家有100个人,年薪 20w RMB,而美国小伙伴家里是2个人,年薪2k美元。我如果想要比较 我们家 和 美国小伙伴家 的赚钱能力的话,应该是 用我们家的人均年薪 除以 中国每个家庭的人均年薪的总和,比上 对应美国小伙伴的。

但这里有一个问题就是我们怎么界定基因长度,是整个基因的长度,还是外显子的长度,还是各种isoform长度的累加。其实这也是不同 数count软件 在算法上的区别。

hhhh,对应到家庭那个例子的话,就是 我们家有些人是不赚钱的(有些isoform是不表达的)……

FPKM

公式:
FPKM_i=\frac{\frac{X_i}{l_i}}{N}10^9

X_i 是对应基因的count值,而l_i则是基因的长度。N则是整个文库的count值。

这里之所以要乘 10^9 是因为 \frac{\frac{X_i}{l_i}}{N} 这个值太小了而已……之所以是 10^9 这个数字,我盲猜只是因为大部分基因的长度是 kb 级别的。

可以看到,FPKM和TPM其实是差不多的,唯一的区别就是一个除的是N,另一个除的是 \sum_j\frac{X_j}{l_j} 。所以转换也比较方便
TPM_i=(\frac{FPKM_i}{\sum_jFPKMj})10^6

基因在这个样本测序文库中的比例 这个角度来看,自然是TPM更加的合理一点,因为TPM才真正做到从百分比的角度来进行矫正。

但其实还有一个问题,即如果两个样本的RNA composition很不一样的话,TPM 真的是一个合理的样本间比较方法么?

参考:

DESeq2 normalized count

这个是DESeq2自己的count矫正方法,主要是为了矫正不同文库的深度以及RNA组成,从而使得大部分基因在样本之间保持不变,本质上就是为每个样本计算一个size Factor,从而得到normalize count,进行后续的差异分析。就像下图一样,如果我们只是根据样本文库深度进行矫正的话(蓝线),那么所有基因都会有差异,如果我们根据 “大部分基因保持不变” 的原则来进行矫正(红线),那么就只会是 点C 有差异了。

image

尽管常见的normalized方法是每个样本得到一个size factor,但其实你也可以对每个样本里的每个基因都指定一个size factor

大部分基因在样本之间保持不变这个假设前提在大部分实验中都是成立的,但有时候也会有例外。比如说在正常组织和肿瘤样本中,肿瘤样本的基因就会有极大的改变,从而使得不符合这个假设前提。其实哪怕你是不同组织之间比较,也是不符合这个假设的,因为每个组织是各司其职,都有其主要表达的基因簇,你拿心脏和脑组织的RNA做差异分析,结果肯定是有很多很多的差异基因的。还有就是你拿DESeq2去做ChIP-Seq的差异分析的时候,可能你的对照组是野生型,而你的处理组是组蛋白酶缺失的突变体,那么其实组蛋白水平是整体降低的,这也不符合大部分保持不变的原则。

但话说回来,怎么样才算 大部分呢?超过50%就算大部分么?回答就是我也不知道╮(╯_╰)╭

其实DESeq2对于这种情况应该还是比较robust的……不然也不会广泛使用了,尤其是在各种癌症组织中。

图来自:

8 High-Throughput Count Data

edgeR的TMM

TMM应该是也是基于大部分基因保持不变的原则,但TMM应该是更加的复杂,有更多的参数,我也更加地不懂……

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容