解读基因组Survey的k-mer分析曲线

我的博客主页
https://wordpress.com/home/yuntaobioinformatics.wordpress.com

0 前言

在基因组测序前,我们一般要通过基因组survey调查基因组的情况,例如基因组大小、杂合度(heterozygosity)。

主要方法有2种,一个是过流式细胞仪,另一个则是根据二代测序的k-mers估计法。

根据Lander-Waterman理论,基因组大小和杂合性可以通过K-mer总数除以K-mer分布的峰值来计算。

K-mer分析从连续序列中迭代地选择K bp的序列,如果read的长度为L,K-mer的长度为K,那么我们可以获得L-K+1条K-mers。

一般K-mer分析可以用Jellyfish软件计算,基因组大小估计、杂合度计算、重复序列估计可以用GenomeScope2

本文在这里介绍k-mers估计法结果中的k-mer分布曲线

图1 白及的k-mer分析

上图是白及单倍型基因组的k-mer分布曲线


1 k-mer分布曲线的基本原理

K-mer 定义:K-mer 指的是长度为 k 的连续核苷酸序列。在测序数据中,将每条读段分割成所有可能的 k-mer,然后统计每个 k-mer 出现的频率。

在基因组文章中,K-mer分布曲线展示了基因组测序中不同长度的K-mer出现频率。

通常情况下,图中显示一个较高的峰值,代表常见的K-mer长度。曲线的高峰值与低谷可能反映了基因组的覆盖深度和杂合度。

通过分析这些峰,可以获取基因组的复杂性和测序质量。

如果有多个峰,可能意味着存在着重复序列或复杂的基因组结构。

图中 x 轴通常代表 k-mer 出现的频率(或覆盖深度),y 轴则表示拥有该频率的 k-mer 数量。


2 分析主峰(纯合峰,homo peak)

接下来以NC的菖蒲基因组文章的k-mer分析为例

图2 菖蒲的k-mer分析

主峰,即上图中的Homo peak(homozygous peak),通常出现在某一固定的覆盖深度上,这个峰值代表了大部分准确无误的、重复的 k-mer 的平均覆盖深度。用这个覆盖深度可以估计基因组大小,即:

基因组大小≈ (所有 k-mer 总数 - 错误 k-mer 数)/ 主峰位置上的覆盖深度K

一个清晰、较为对称的主峰通常说明测序数据质量较好,错误率低,数据比较均匀。

另外也要注意低频区域(图2的errors

曲线左侧低频区域中的 k-mer 通常因为测序错误而产生,这部分数据通常会在分析时过滤掉。

在计算基因组大小或其他参数时,通常会忽略低于某个频率的k-mer,因为它们大部分可能是测序错误引起的噪声。


3 分析次峰(杂合峰,hete peak)与杂合度的检验

如果样本具有较高的杂合性,在K-mer分布中往往会出现一个明显的次峰(heterozygous peak)

这个次峰通常出现在主峰的一半左右覆盖深度的位置。这是因为异质性位点的 k-mer 出现频率较低,一般只有 1/2 的覆盖深度。

若次峰不明显或不存在,则通常说明样本纯合性较高,杂合性较低;反之,明显的次峰则反映了基因组中存在较高的遗传多样性。

一般来说,杂合峰在纯合峰的左侧,而且一般峰的面积、高度都是低于纯合峰的,但是图2的例子杂合度太高了

如图所示,hete=2.11%,即杂合度2.11%,一般>1%就认为杂合度很高了,有的物种例如百合甚至可达3%


4 更右侧的重复峰(dup peak)

有时曲线右侧会出现一个“尾部”或额外的小峰(图2的dup peak),这些部分往往对应于重复的序列。

这些高频的k-mers表明某些序列在基因组中出现了大量重复。

通过分析这一部分的面积,可以估计基因组中重复序列的比例。

当然我们肉眼只能看个大概,还是得做分析的人用GenomeScope2等软件去看


5 总结

阅读 K-mer 分布曲线时,关键是看:

  • 主峰的位置:用于估算平均覆盖深度和基因组大小。

  • 次峰的情况:用于判断样本的杂合性水平。

  • 低频区域:反映测序错误,需加以过滤。

  • 高频尾部:提示基因组中可能的高重复区域。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容