K-mer分析

独立实验

将某随机试验重复N次,若各次试验结果互不影响,即每次试验结果出现的概率都不依耐于其他各次试验的结果,则称这N次试验是独立的。

贝努利试验(Bernoulli trial)

对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与A-之一,在每次试验中出现A的概率是常数p(0<p<1),那么出现对立事件A-的概率就是1-p=q,那么称这一连串重复的独立试验为n重贝努利试验,简称贝努利试验。

在生物学研究中,我们经常碰到一类离散型随机变量,可以用贝努利试验来概括。

在n重贝努利试验中,事件A可能发生0,1,2,3……n次,那么事件A恰好发生k次(0≤k≤n)的概率Pn(k)可以表示为:

其中:

二项分布

若随机变量x,其所有可能的取值为0,1,2,3……n(这些整数),并且有:

其中p>0,q>0, p+q=1, 则称随机变量x服从参数为n和p的二项分布(binomial distribution),记为x~B(n,p)。

二项分布由两个参数n和p决定。可以证明,服从二项分布的随机变量的平均数μ、标准差σ与参数n、p有如下关系:

性质:

  1. 当p值较小,且n不大时,分布是偏倚的。随着n增大,分布逐渐趋于对称。
  2. 当p值接近0.5时,分布趋于对称
  3. 当n和p一定时,当k增加时,[图片上传失败...(image-9752e4-1677489205273)]先随k增大而增加,达到极大值后又下降。
  4. 当n较大时,np和nq较接近时,二项分布接近于正态分布;即当n趋近于无穷大时,二项分布的极限分布是正态分布。

泊松分布(波松)

对于二项分布,在n→∞,p→0时,二项分布趋于泊松分布。

泊松分布是一种可以用来描述和分析随机地发生在单位空间或之间里的稀有事件的概率分布。

定义:

若随机变量x(x=k)取整数0,1,2,3…,且其概率分布为:

其中λ>0,e为自然对数的底数,则称x服从参数为λ的泊松分布(Poisson‘s distribution),记为x~P(λ)

特征:

  1. 离散型随机变量的概率分布
  2. 均数和方差都等于常数λ,即

当二项分布趋于泊松分布时(即n→∞,p→0时),泊松分布的λ用二项分布的np代替。

实际计算中,当p<0.1且n很大时,二项分布可由泊松分布近似表示。

K-mer

定义:一段长度固定的序列。k表示这个序列的长度

mer的分子生物学定义为monomeric unit,单体单元,相当于nt或者bp。通常双链核酸单位中,100mer DNA相当于每条链有100nt,那么整条链就是100bp。

k-mer是指将reads迭代分成K个碱基的序列。一般长度为L的read可以分成L-K+1个k-mers。

测序深度(sequence depth)

一个基因组的碱基数(大小)为G,那么其中一个碱基被测序测到的概率是1/G。当我们对这个基因组测序n次的时候,次序的次数很多,然而一个基因组通常比较大,所以一个碱基被测到的概率1/G就很小,那么此时测n次,某碱基被测到k次的概率就服从泊松分布。同理,该基因组上所有其他碱基被测到k次的概率都服从泊松分布。

那么,碱基被测到的次数就叫碱基的测序深度。

可证,碱基被测到的次数是服从泊松分布的,即测序深度是服从泊松分布的。

同理,k-mer被测到的次数也是服从泊松分布的。那么k-mer被测到的次数叫k-mer的测序深度。即,k-mer的测序深度是服从泊松分布的(即,k-mer的测序深度与其测到的k-mer种类数(或种类数比例)呈泊松分布)。

实际中,kmer分析的结果会得到4列表格,

第1列,表示k-mer的深度,即表示k-mer被测到的次数(某一种k-mer被测到的次数)

第2列,表示该深度下,k-mer的种类数。(即对应出现1,2,3……次的k-mer有第2列中数值的种类数……)(事实上,某深度下k-mer的种类数即是该深度下k-mer的个数,但这些k-mer都被测了该深度的次数次。)

第3列,表示第2列的数值除以总数,即该深度下种类数的比例(即是该深度下,k-mer个数的比例)。

第4列,表示第1列的数值乘以第2列的数值,即表示该深度下的k-mer总数。

用第1列做横坐标,第3列做纵坐标,作图,理论上应该得到类似泊松分布的概率分布曲线图。

理解:

由于NGS测序是机会性的测序,即每个碱基被测到与否,被测准确与否,是一个概率事件。那么当测序的次数足够多的时候,我们可以相信即便机会再少的碱基也可以被测到,或者被测准确。那么,被测到次数多的碱基和被测到次数少的碱基之间具体是一个什么情况呢?通过测序的次数和相应的碱基作图,可以表示他们之间的关系。

因此,测序的次数为测序深度。被测的碱基不可能每个碱基进行呈现,因此引入k-mer概念,将一段碱基序列看成一个整体,对其被测到的次数进行统计,然后与测序深度作图。于是得到泊松分布的曲线图。

k-mer分析的假设

  1. k-mer序列选择,要遍布整个基因组

  2. k-mer深度的频率分布服从泊松分布

即可以用k-mer的总数和k-mer的深度估算基因组的大小

其中:knum表示k-mer的个数

kdepth表示k-mer的预期深度

bnum表示碱基个数

bdepth表示碱基预期深度

λ是测序深度的平均值,即是泊松分布图像曲线的最高点,即系平均测序深度的最大概率。

k-mer分析实例

实例1

kmer depth和kmernum由数据表格得出,那么:

genome size=kmer num/kmer depth

X(测序深度)=used base/genome size

理论上计算出的X应该和kmer depth相接近

  • 图中初始低深度的高的频率分布主要由测序错误引起。若测出错误比较高,那么低深度的分布峰也会比较高。

  • 主峰1/2处若有杂峰,则通常是由基因组杂合引起。

  • 若主峰的整数倍深度处出现杂峰,则通常是因为基因组含有高比例的重复序列引起。

  • 若整条曲线不规则,无法判断主峰,或者无法判断杂峰等的情况,则可能是由于有基因组污染

实例2

实例3

此时分不清以哪个作为主峰来计算基因组大小,需要采取其他方式来估算基因组大小(比如流式细胞仪)

实例4

左图:实验初始并不知道基因组大小是多少,也不知道测序深度是多少。估计:假设基因组是1G大小,那要测30×深度,则要测30G的数据,那么用30G的数据去做kmer分析,若基因组真的是1G大小,那么得到的主峰就应该在30G左右。但是,如果实际上,基因组是3G,那我们仍然测了30G的数据,那么实际上只测了10×的深度。那么此时,主峰应该在横坐标10附近。这样主峰与初始的测序错误的峰就混在一起了。

因此,左图的情况是,当真实的基因组比我们实验开始时估计的基因组大小大得多的情况下,即无法得到主峰。

右图:基因组被其他基因组污染。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容