前言
作为表观基因组的工具,MACS2是call peaks强而有力的工具,那么MACS call peak的基本统计学原理是上面呢?大至可以分为3步:1.设置滑动窗口;2.统计peaks在基因组上随机分布的情况;3.统计学检验
MACS2的输出文件
1.NAME_peaks.xls
包含peak信息:
1.染色体号
2.peak起始位点
3.peak结束位点
4.peak区域长度
5.peak的峰值位点(summit position)
6.peak 峰值的高度(pileup height at peak summit, -log10(pvalue) for the peak summit)
8.peak的富集倍数(fold change,相对于random Poisson distribution with local lambda)
2.NAME_peaks.narrowPeak
narrowPeak文件:
1:染色体号
2:peak起始位点
3:结束位点
4:peak name
5:int(-10*log10qvalue)
6 :正负链
7:peak的富集倍数(fold change)
8:-log10pvalue
9:-log10qvalue
由MACS2的输出文件来看,处理peaks的基本信息以外,如何计算peak的富集倍数(或者说是在某一个区域上富集多少条reads才算作为一个peak)以及如何计算显著性p_val就变成了一个热点问题
设置滑动窗口
首先,MACS2会设置一个滑动窗口(通常为1000bp),并以滑动窗口为单位来统计该区段上的reads富集成的peaks
我们知道TF或者蛋白结合到的位置是随机的,即peaks在基因组上出现的位置是随机的(peaks即为TF或者蛋白结合的位置)。
并且在一般情况下(这里的一般情况指的是reads随机分布在基因组上),当TF或者某种蛋白特异性结合在某个位点上时(高频结合位点),相比于一般情况(即reads随机分布在基因组上的情况下),在这些位点TF或者蛋白结合的区域会有大量的reads富集,这些区域reads的富集程度远高于reads随机分布在基因组上(一般情况)的,因此若满足这个条件,我们就定义该区域是富集出peak的
统计peaks在基因组上随机分布的情况
比对完成以后,每一条read结合到一个滑动窗口上可以看作是一个事件,统计结果可以分为某read结合到了该滑动窗口上和没有结合到该滑动窗口上这两种结果,因此可以看作是伯努利实验,服从二项分布
并且我们可以近似假设,设总基因组长度为S,lA为某滑窗A的长度,那么,任意的reads比对到该滑窗A的概率为:lA / S
由于reads和滑窗有很多,试验次数很多,并且每一个read结合到滑动窗口上的概率很小,所以二项分布就会趋近于泊松分布
统计学检验
接下来定义一般情况下(reads随机分布在基因组上)的泊松分布:
MACS2将所用Chip-seq数据的reads随机分布在基因组上,并统计每一个滑动窗口上的reads数,并发现每一个滑动窗口上富集到reads个数的频率分布是满足泊松分布的:
这幅图表示的是频率分布图,横坐标表示每一个滑窗上mapping到的reads数,纵坐标表示出现k的滑窗频率(频数)
其中k为每一个滑窗上mapping到的reads数,而p(x = k)代表出现 k 个reads数的滑窗频率(概率),比方说,mapping到5个reads的滑窗个数最多,频率为p(x = 5)。由此图可以看出,reads随机分布在基因组上,其中每个滑窗上分摊到的reads并不是很多,其中每个滑窗上分的5条reads的情况是最多的
那么对于任意位置的滑窗A来说,我们定义一般情况(reads随机分布在基因组上)的泊松分布的λ为:
其中:
1.lA为滑窗A的长度
2.S为总基因组的长度
3.n为总测序的reads数
那么,不同的λ值对应的泊松分布如下图所示:
其中k为滑窗A上比对到的reads个数,那么p(x=k)代表该滑窗上出现(比对上)k个reads的频率
比方说,当λ=10时,A滑窗上出现10个reads的频率最高,出现0和15个(或更高)reads的频率最低;那么假设我们某一组sample在该滑窗A上检测到了100个reads,这已经大大超出了reads随机分布在基因组上所产生的泊松分布(一般情况下)的正常范围(因为出现100个reads的可能性几乎为零),所以可以判断该组sample在该滑窗A上有peak富集,并且利用泊松分布计算去p_val(即计算在分布中,k = 100在极端情况下的面积)