我的博客主页
https://wordpress.com/home/yuntaobioinformatics.wordpress.com
0 前言
在基因组测序前,我们一般要通过基因组survey调查基因组的情况,例如基因组大小、杂合度(heterozygosity)。
主要方法有2种,一个是过流式细胞仪,另一个则是根据二代测序的k-mers估计法。
根据Lander-Waterman理论,基因组大小和杂合性可以通过K-mer总数除以K-mer分布的峰值来计算。
K-mer分析从连续序列中迭代地选择K bp的序列,如果read的长度为L,K-mer的长度为K,那么我们可以获得L-K+1条K-mers。
一般K-mer分析可以用Jellyfish软件计算,基因组大小估计、杂合度计算、重复序列估计可以用GenomeScope2
本文在这里介绍k-mers估计法结果中的k-mer分布曲线
上图是白及单倍型基因组的k-mer分布曲线
1 k-mer分布曲线的基本原理
K-mer 定义:K-mer 指的是长度为 k 的连续核苷酸序列。在测序数据中,将每条读段分割成所有可能的 k-mer,然后统计每个 k-mer 出现的频率。
在基因组文章中,K-mer分布曲线展示了基因组测序中不同长度的K-mer出现频率。
通常情况下,图中显示一个较高的峰值,代表常见的K-mer长度。曲线的高峰值与低谷可能反映了基因组的覆盖深度和杂合度。
通过分析这些峰,可以获取基因组的复杂性和测序质量。
如果有多个峰,可能意味着存在着重复序列或复杂的基因组结构。
图中 x 轴通常代表 k-mer 出现的频率(或覆盖深度),y 轴则表示拥有该频率的 k-mer 数量。
2 分析主峰(纯合峰,homo peak)
接下来以NC的菖蒲基因组文章的k-mer分析为例
主峰,即上图中的Homo peak(homozygous peak),通常出现在某一固定的覆盖深度上,这个峰值代表了大部分准确无误的、重复的 k-mer 的平均覆盖深度。用这个覆盖深度可以估计基因组大小,即:
基因组大小≈ (所有 k-mer 总数 - 错误 k-mer 数)/ 主峰位置上的覆盖深度K
一个清晰、较为对称的主峰通常说明测序数据质量较好,错误率低,数据比较均匀。
另外也要注意低频区域(图2的errors)
曲线左侧低频区域中的 k-mer 通常因为测序错误而产生,这部分数据通常会在分析时过滤掉。
在计算基因组大小或其他参数时,通常会忽略低于某个频率的k-mer,因为它们大部分可能是测序错误引起的噪声。
3 分析次峰(杂合峰,hete peak)与杂合度的检验
如果样本具有较高的杂合性,在K-mer分布中往往会出现一个明显的次峰(heterozygous peak)。
这个次峰通常出现在主峰的一半左右覆盖深度的位置。这是因为异质性位点的 k-mer 出现频率较低,一般只有 1/2 的覆盖深度。
若次峰不明显或不存在,则通常说明样本纯合性较高,杂合性较低;反之,明显的次峰则反映了基因组中存在较高的遗传多样性。
一般来说,杂合峰在纯合峰的左侧,而且一般峰的面积、高度都是低于纯合峰的,但是图2的例子杂合度太高了
如图所示,hete=2.11%,即杂合度2.11%,一般>1%就认为杂合度很高了,有的物种例如百合甚至可达3%
4 更右侧的重复峰(dup peak)
有时曲线右侧会出现一个“尾部”或额外的小峰(图2的dup peak),这些部分往往对应于重复的序列。
这些高频的k-mers表明某些序列在基因组中出现了大量重复。
通过分析这一部分的面积,可以估计基因组中重复序列的比例。
当然我们肉眼只能看个大概,还是得做分析的人用GenomeScope2等软件去看
5 总结
阅读 K-mer 分布曲线时,关键是看:
主峰的位置:用于估算平均覆盖深度和基因组大小。
次峰的情况:用于判断样本的杂合性水平。
低频区域:反映测序错误,需加以过滤。
高频尾部:提示基因组中可能的高重复区域。