每日文献:2018-01-06

ChIP-seq文章

8年前的ChIP-seq如何找peak

老板前几天丢了2010年的文章给我,让我去看下这篇文章的ChIP-seq分析结果中,他要的基因是不是也被调控了。于是我就看到了8年的ChIP-seq分析中是如何寻找Peak region。

数据来自于Illumina的单端测序,长度为42bp。分别2个ChIP-seq独立的生物学重复和2个对照生物学重复,但是一共有7份数据。因为第一组ChIP-seq还有3个技术重复,第一组对照还有2个技术重复,所以是3+1+2+1=7 。他们的ChIP-seq样本在测序之前用qPCR先进行了验证。

由于当时测序技术还一般,后面几个bp质量就急剧变差,于是先用了GenomeMapper直接裁剪到36bp,数据比对用的是SHORE,允许4个碱基错配,不允许gap。目前质量控制可用trimmomatic,比对可用bowtie1,接着用samtools转换格式和排序。这些都比较常规,不需要过多介绍,下面找到差异需要仔细讲讲。

作者的策略分为两步:第一步用slide window在ChIP-seq样本中找到潜在可能的富集区域。第二步对该区域进行定量,通过和对照组进行比较,从而找到统计学上显著富集的区域。

step1: 找到ChIP样本中潜在区域

为了实现第一步,首先需要用唯一匹配的read(uniquely mapping reads)去计算基因组的片段覆盖图(fragment coverage graph),也就是说在基因组上每个碱基要注释read覆盖深度(coverage depath)。

注意:作者说“如果你懂一点ChIP实验的话,那你就知道有一半的ChIP实验表明蛋白和DNA免疫沉淀的片段平均长度是200~300bp“,所以作者先把原来只有34bp的read覆盖在3‘方向拓展了130bp,假装自己测序是SE130. 不过现在基本都是PE100,PE150,你都不需要假装了。

由于我对ChIP这方面实验还不太懂,于是我去问了公众号《嘉因》的小编—小丫,她说如果是实验的打断效果是在300-700,如果是建库的size selection则是200bp。

得到全基因组每个碱基的read的覆盖深度后,作者使用2kb的window,以1bp为步长开始扫描基因组检测peak region。每一步都需要评估潜在的富集中心碱基(potential enrichment of the central base)。评估方法单边泊松检验,其中lambda设为局部的平均深度(即所有碱基的覆盖深度除以碱基总数)。没有覆盖的地方就是ChIP-seq没有结合的区域,所以不计算哦。这一步得到的P<0.05的区域即为P1.

然后继续从P1里挑选出那些连续130个碱基的P值都低于0.05的部分作为P2.

P2区域继续和对照组进行比较,如果对照组的那些区域也是很高表达,那么这些区域继续被剔除,留下的就是P3. 标准是P2潜在的peak region对应的对照区域的平均覆盖度(mean coverage) 大于正处理的中位数+3个标准差(median coverage plus three deviations)

step2: 找到显著性富集的区域

这部分首先使用单边二项检验, 参数之一的N为ChIP和对照实验中比对到潜在区域到read总数。参数之二的成功概率‘r',作者认为r = s/(s+1). 其中s为对照的比例因子(scaling factor).s的计算方式为: 将整条基因组切割为400bp大小的分箱(bin),每个分箱分别记录处理样本和对照样本的比对reads数,s就是那个在这些分箱中让处理样本的read count和对照样本的read count的系数。

上面得到的一些列p值还需要用 Benjamini-Hochberg矫正方法转换为FDR。为了进一步提高peak区域的准确,作者还计算了per base excess,也就是正处理和对照相比每个碱基额外的覆盖度的均值chip reads – (s * control reads)]/ peak width

最后作者选择了两个独立重复中,FDR < 10^-10 和 per base excess > 0.25的peak region。至于为啥选择那样子的FDR,作者给出的原因是二项分布的模型不太好,所以要非常严格才行。

if the variance of the true distribution is larger. Alternatively, it may be that AP2 binds an unusually large number of regions in the genome at a lower affinity. In any case, we chose to err on the side of higher peak calling stringency.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352