基因组分析 K-mer 第5回 数学原理

前几回通过动手操作大概了解了K-mer是怎么一回事了,这一回稍微深入一下,透过现象看本质,看一下K-mer背后的数学原理。耐心看完的话其实也不需要什么讲解,应该大概都能看懂的。

5.1. 基本参数

基因组大小:G

Read读长:L

总Read条数:n_r

5.2 碱基深度分布

单条Read测序覆盖到某一个碱基的概率:L/G

因为L/G很小,n_r很大,每个碱基覆盖深度服从泊松分布。

则每个碱基的覆盖深度的期望为:d_n=(L/G) x n_r

5.3 K-mer深度分布

假设基因组对K是unique的,可以得到G个不同的K-mer。

基因长度和K-mer种类等同

单条Read测序覆盖某个K-mer的概率:(L-K+1)/G

L-K+1相当于单条read产生的K-mer个数

同样因为(L-K+1)/G很小,n_r很大,每个K-mer的覆盖深度服从泊松分布。

则每个K-mer的覆盖深度的期望为:d_k=((L-K+1)/G) x n_r

5.4. 通过K-mer分布估计基因组大小

可知总K-mer个数:n_k=(L-K+1) x n_r

通过统计K-mer分布可知K-mer深度期望:d_k=((L-K+1)/G) x n_r

则基因组大小:G=n_k/d_k

5.5 碱基深度分布与K-mer深度分布的关系

d_n/d_k=L/(L-K+1)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容