12高通量测序-DESeq2文库标准化

DESeq2文库标准化

问题1:调整文库大小的差异

样本1的read是样本2的一半,样本2中每个基因的read是样本1的两倍。这种差异不是生物学造成的,而是测序深度造成的。RPKM,FPKM,TPM和CPM都处理这个问题。

image-20210105152717127.png

问题2:调整文库组成的差异

RNA-seq(和其他高通量测序)经常被用来比较一种组织类型和另一种组织类型。例如,肝脏vs脾脏。这可能是因为肝脏中转录有很多肝脏特异性基因,而脾脏中却没有。这是一个不同的文库组成(library composition)的例子,你也可以想象,如果你敲除一个转录因子,在同一种组织类型中,你会发现不同的文库组成。

在这个例子中,两个文库有相同的大小(read),现在,假设所有基因的表达都是一样的,只有一个例外。假设只有样本1转录A2M, 这意味着样本1中A2M消耗掉的563个reads,这563reads将会分布到样本2中的其他基因上。在样本2中,除了A2M之外,所有的reads都非常高。然而,唯一的差异表达基因是A2M。

image-20210105153817941.png

上传失败...(image-dfdecb-1610511799293)

编写DESeq2(和edgeR)的人意识到他们的工具将用于各种类型的数据集,所以他们希望他们的标准化去处理:

  • 问题1:调整文库大小的差异

  • 问题2:调整文库组成的差异

我们将从一个小数据集开始,说明DESeq2如何缩放(scale)不同的样本。目标是为每个样本计算一个标准化因子(scaling factor)。标准化因子必须考虑到read depth和library composition。

第一步:对全部值取log

  • DESeq2使用了log(“以e为底的log”)

  • DESeq2可以使用log2或log10,但在R中loge默认值。

  • 注意log(0) =-∞,这是因为R定义log(0)等于-∞。

第二步:每行取平均值

  • 任何时候你把一个数字加到无穷(或-无穷)你会得到无穷(或-无穷),这就是为什么这是负无穷。因为Gene1是负无穷,所以平均值也是负无穷。

  • 对数值的平均值有一件很酷的事情,那就是这个平均值不容易被异常值所影响。同理,我们可以看Gene3,存在异常值,取对数后,影响减小。

image-20210105155548099.png

第三步:过滤掉值为负无穷的基因

  • 一般来说,这一步在一个或多个样本中过滤掉read为零的基因。

  • 如果你在比较肝脏和脾脏,这将去除所有只在肝脏(或脾脏)转录的基因。

  • 理论上,这有助于将标准化因子集中在管家基因上——无论组织类型如何,基因转录水平都是相似的。

第四步:从log(counts)中减去平均对数值

  • 我们要检查的是每个样本读取数与所有样本均值的比。
image-20210105160529142.png

image-20210105160310632.png

第五步:计算每个样本比的中位数(median)

  • 注意:使用中位数是另一种避免极端基因在一个方向上过度影响的方法

  • 表达差异较大的基因对中位数的影响并不比表达差异较小的基因大,因为具有巨大差异的基因极有可能是罕见的,因此,这种效应会给差异较小的和“管家”基因带来更大的影响。

第六步:将中位数转换为“正态数”,得到每个样本的最终的标准化因子

  • 这些是对数值,所以它们是指数(这里是e的指数)

  • 太棒了! !我们有三个样本的标准化因子,现在我们要做的就是把原始的reads除以它们。

image-20210105161816057.png

第七步:将原始reads除以标准化因子

image-20210105162034553.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,451评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,172评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,782评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,709评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,733评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,578评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,320评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,241评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,686评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,878评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,992评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,715评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,336评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,912评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,040评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,173评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,947评论 2 355

推荐阅读更多精彩内容