登录注册写文章

基因组分析 K-mer 第5回数学原理

Jason数据分析生信教室

基因组分析 K-mer 第5回数学原理

前几回通过动手操作大概了解了K-mer是怎么一回事了，这一回稍微深入一下，透过现象看本质，看一下K-mer背后的数学原理。耐心看完的话其实也不需要什么讲解，应该大概都能看懂的。

5.1. 基本参数

基因组大小：G

Read读长：L

总Read条数：n_r

5.2 碱基深度分布

单条Read测序覆盖到某一个碱基的概率：L/G

因为L/G很小，n_r很大，每个碱基覆盖深度服从泊松分布。

则每个碱基的覆盖深度的期望为：d_n=(L/G) x n_r

5.3 K-mer深度分布

假设基因组对K是unique的，可以得到G个不同的K-mer。

基因长度和K-mer种类等同

单条Read测序覆盖某个K-mer的概率：(L-K+1)/G

L-K+1相当于单条read产生的K-mer个数

同样因为(L-K+1)/G很小，n_r很大，每个K-mer的覆盖深度服从泊松分布。

则每个K-mer的覆盖深度的期望为：d_k=((L-K+1)/G) x n_r

5.4. 通过K-mer分布估计基因组大小

可知总K-mer个数：n_k=(L-K+1) x n_r

通过统计K-mer分布可知K-mer深度期望：d_k=((L-K+1)/G) x n_r

则基因组大小：G=n_k/d_k

5.5 碱基深度分布与K-mer深度分布的关系

d_n/d_k=L/(L-K+1)

最后编辑于：2021.07.26 16:07:38

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

基因组分析 K-mer 第1回理解K-mer和Coverage的基本概念
0605 Cloudy K-mer是什么，举两个例子就知道了。例1：在碱基长度为20的序列里，设置k=19, 那...
Jason数据分析生信教室阅读 3,254评论 0赞 6
基因组分析 K-mer 第2回估计50bp的全基因长度
0607 Cloudy先定义一下标题里的“估计”两个字在这里是什么意思。根据什么估计什么。 1.根据NGS短序列数...
Jason数据分析生信教室阅读 691评论 0赞 2
基因组分析 K-mer 第0回随机生成fasta文件
0604 Rain 前言关于k-mer的基础定义和用法，网上有太多的文章解释，什么估计基因长度，杂合程度，最优拼...
Jason数据分析生信教室阅读 1,219评论 0赞 3
基因组组装----k-mer
1.什么是k-mer？ k-mer：在生物信息学中，k-mers是包含在生物序列中的长度为k的子序列。比如序列：...
bcl_hx阅读 14,380评论 0赞 18
基因组survey——K-mer频谱
Kmer是从测序数据中滑窗提取出的长度为k的寡聚核苷酸序列，可以评估基因组大小、杂合度、重复序列比例等。在测序re...
徐诗芬阅读 5,223评论 0赞 7

2赞3赞

赞赏

手机看全文