K-mer分析

独立实验

将某随机试验重复N次，若各次试验结果互不影响，即每次试验结果出现的概率都不依耐于其他各次试验的结果，则称这N次试验是独立的。

贝努利试验（Bernoulli trial）

对于n次独立的试验，如果每次试验结果出现且只出现对立事件A与A-之一，在每次试验中出现A的概率是常数p（0<p<1)，那么出现对立事件A-的概率就是1-p=q，那么称这一连串重复的独立试验为n重贝努利试验，简称贝努利试验。

在生物学研究中，我们经常碰到一类离散型随机变量，可以用贝努利试验来概括。

在n重贝努利试验中，事件A可能发生0,1,2,3……n次，那么事件A恰好发生k次（0≤k≤n）的概率Pn(k)可以表示为：

其中：

二项分布

若随机变量x，其所有可能的取值为0,1,2,3……n（这些整数），并且有：

其中p>0,q>0, p+q=1, 则称随机变量x服从参数为n和p的二项分布（binomial distribution），记为x~B(n,p)。

二项分布由两个参数n和p决定。可以证明，服从二项分布的随机变量的平均数μ、标准差σ与参数n、p有如下关系：

性质：

当p值较小，且n不大时，分布是偏倚的。随着n增大，分布逐渐趋于对称。
当p值接近0.5时，分布趋于对称
当n和p一定时，当k增加时，[图片上传失败...(image-9752e4-1677489205273)]先随k增大而增加，达到极大值后又下降。
当n较大时，np和nq较接近时，二项分布接近于正态分布；即当n趋近于无穷大时，二项分布的极限分布是正态分布。

泊松分布（波松）

对于二项分布，在n→∞，p→0时，二项分布趋于泊松分布。

泊松分布是一种可以用来描述和分析随机地发生在单位空间或之间里的稀有事件的概率分布。

定义：

若随机变量x（x=k）取整数0,1,2,3…，且其概率分布为：

其中λ>0，e为自然对数的底数，则称x服从参数为λ的泊松分布（Poisson‘s distribution），记为x~P(λ)

特征：

离散型随机变量的概率分布
均数和方差都等于常数λ，即

当二项分布趋于泊松分布时（即n→∞，p→0时），泊松分布的λ用二项分布的np代替。

实际计算中，当p<0.1且n很大时，二项分布可由泊松分布近似表示。

K-mer

定义：一段长度固定的序列。k表示这个序列的长度

mer的分子生物学定义为monomeric unit，单体单元，相当于nt或者bp。通常双链核酸单位中，100mer DNA相当于每条链有100nt，那么整条链就是100bp。

k-mer是指将reads迭代分成K个碱基的序列。一般长度为L的read可以分成L-K+1个k-mers。

测序深度（sequence depth）

一个基因组的碱基数（大小）为G，那么其中一个碱基被测序测到的概率是1/G。当我们对这个基因组测序n次的时候，次序的次数很多，然而一个基因组通常比较大，所以一个碱基被测到的概率1/G就很小，那么此时测n次，某碱基被测到k次的概率就服从泊松分布。同理，该基因组上所有其他碱基被测到k次的概率都服从泊松分布。

那么，碱基被测到的次数就叫碱基的测序深度。

可证，碱基被测到的次数是服从泊松分布的，即测序深度是服从泊松分布的。

同理，k-mer被测到的次数也是服从泊松分布的。那么k-mer被测到的次数叫k-mer的测序深度。即，k-mer的测序深度是服从泊松分布的（即，k-mer的测序深度与其测到的k-mer种类数（或种类数比例）呈泊松分布）。

实际中，kmer分析的结果会得到4列表格，

第1列，表示k-mer的深度，即表示k-mer被测到的次数（某一种k-mer被测到的次数）

第2列，表示该深度下，k-mer的种类数。（即对应出现1，2,3……次的k-mer有第2列中数值的种类数……）(事实上，某深度下k-mer的种类数即是该深度下k-mer的个数，但这些k-mer都被测了该深度的次数次。)

第3列，表示第2列的数值除以总数，即该深度下种类数的比例（即是该深度下，k-mer个数的比例）。

第4列，表示第1列的数值乘以第2列的数值，即表示该深度下的k-mer总数。

用第1列做横坐标，第3列做纵坐标，作图，理论上应该得到类似泊松分布的概率分布曲线图。

理解：

由于NGS测序是机会性的测序，即每个碱基被测到与否，被测准确与否，是一个概率事件。那么当测序的次数足够多的时候，我们可以相信即便机会再少的碱基也可以被测到，或者被测准确。那么，被测到次数多的碱基和被测到次数少的碱基之间具体是一个什么情况呢？通过测序的次数和相应的碱基作图，可以表示他们之间的关系。

因此，测序的次数为测序深度。被测的碱基不可能每个碱基进行呈现，因此引入k-mer概念，将一段碱基序列看成一个整体，对其被测到的次数进行统计，然后与测序深度作图。于是得到泊松分布的曲线图。

k-mer分析的假设

k-mer序列选择，要遍布整个基因组
k-mer深度的频率分布服从泊松分布

即可以用k-mer的总数和k-mer的深度估算基因组的大小

其中：knum表示k-mer的个数

kdepth表示k-mer的预期深度

bnum表示碱基个数

bdepth表示碱基预期深度

λ是测序深度的平均值，即是泊松分布图像曲线的最高点，即系平均测序深度的最大概率。

k-mer分析实例

实例1

kmer depth和kmernum由数据表格得出，那么：

genome size=kmer num/kmer depth

X（测序深度）=used base/genome size

理论上计算出的X应该和kmer depth相接近

图中初始低深度的高的频率分布主要由测序错误引起。若测出错误比较高，那么低深度的分布峰也会比较高。

主峰1/2处若有杂峰，则通常是由基因组杂合引起。

若主峰的整数倍深度处出现杂峰，则通常是因为基因组含有高比例的重复序列引起。

若整条曲线不规则，无法判断主峰，或者无法判断杂峰等的情况，则可能是由于有基因组污染

实例2

实例3

此时分不清以哪个作为主峰来计算基因组大小，需要采取其他方式来估算基因组大小（比如流式细胞仪）

实例4

左图：实验初始并不知道基因组大小是多少，也不知道测序深度是多少。估计：假设基因组是1G大小，那要测30×深度，则要测30G的数据，那么用30G的数据去做kmer分析，若基因组真的是1G大小，那么得到的主峰就应该在30G左右。但是，如果实际上，基因组是3G，那我们仍然测了30G的数据，那么实际上只测了10×的深度。那么此时，主峰应该在横坐标10附近。这样主峰与初始的测序错误的峰就混在一起了。

因此，左图的情况是，当真实的基因组比我们实验开始时估计的基因组大小大得多的情况下，即无法得到主峰。

右图：基因组被其他基因组污染。