前几回通过动手操作大概了解了K-mer是怎么一回事了,这一回稍微深入一下,透过现象看本质,看一下K-mer背后的数学原理。耐心看完的话其实也不需要什么讲解,应该大概都能看懂的。
5.1. 基本参数
基因组大小:G
Read读长:L
总Read条数:n_r
5.2 碱基深度分布
单条Read测序覆盖到某一个碱基的概率:L/G
因为L/G很小,n_r很大,每个碱基覆盖深度服从泊松分布。
则每个碱基的覆盖深度的期望为:d_n=(L/G) x n_r
5.3 K-mer深度分布
假设基因组对K是unique的,可以得到G个不同的K-mer。
基因长度和K-mer种类等同
单条Read测序覆盖某个K-mer的概率:(L-K+1)/G
L-K+1相当于单条read产生的K-mer个数
同样因为(L-K+1)/G很小,n_r很大,每个K-mer的覆盖深度服从泊松分布。
则每个K-mer的覆盖深度的期望为:d_k=((L-K+1)/G) x n_r
5.4. 通过K-mer分布估计基因组大小
可知总K-mer个数:n_k=(L-K+1) x n_r
通过统计K-mer分布可知K-mer深度期望:d_k=((L-K+1)/G) x n_r
则基因组大小:G=n_k/d_k
5.5 碱基深度分布与K-mer深度分布的关系
d_n/d_k=L/(L-K+1)