我的博客主页
https://wordpress.com/home/yuntaobioinformatics.wordpress.com

0 前言

在基因组测序前，我们一般要通过基因组survey调查基因组的情况，例如基因组大小、杂合度（heterozygosity）。

主要方法有2种，一个是过流式细胞仪，另一个则是根据二代测序的k-mers估计法。

根据Lander-Waterman理论，基因组大小和杂合性可以通过K-mer总数除以K-mer分布的峰值来计算。

K-mer分析从连续序列中迭代地选择K bp的序列，如果read的长度为L，K-mer的长度为K，那么我们可以获得L-K+1条K-mers。

一般K-mer分析可以用Jellyfish软件计算，基因组大小估计、杂合度计算、重复序列估计可以用GenomeScope2

本文在这里介绍k-mers估计法结果中的k-mer分布曲线

图1 白及的k-mer分析

上图是白及单倍型基因组的k-mer分布曲线

1 k-mer分布曲线的基本原理

K-mer 定义：K-mer 指的是长度为 k 的连续核苷酸序列。在测序数据中，将每条读段分割成所有可能的 k-mer，然后统计每个 k-mer 出现的频率。

在基因组文章中，K-mer分布曲线展示了基因组测序中不同长度的K-mer出现频率。

通常情况下，图中显示一个较高的峰值，代表常见的K-mer长度。曲线的高峰值与低谷可能反映了基因组的覆盖深度和杂合度。

通过分析这些峰，可以获取基因组的复杂性和测序质量。

如果有多个峰，可能意味着存在着重复序列或复杂的基因组结构。

图中 x 轴通常代表 k-mer 出现的频率（或覆盖深度），y 轴则表示拥有该频率的 k-mer 数量。

接下来以NC的菖蒲基因组文章的k-mer分析为例

图2 菖蒲的k-mer分析

主峰，即上图中的Homo peak（homozygous peak），通常出现在某一固定的覆盖深度上，这个峰值代表了大部分准确无误的、重复的 k-mer 的平均覆盖深度。用这个覆盖深度可以估计基因组大小，即：

基因组大小≈ （所有 k-mer 总数 - 错误 k-mer 数）/ 主峰位置上的覆盖深度K

一个清晰、较为对称的主峰通常说明测序数据质量较好，错误率低，数据比较均匀。

另外也要注意低频区域(图2的errors）

曲线左侧低频区域中的 k-mer 通常因为测序错误而产生，这部分数据通常会在分析时过滤掉。

在计算基因组大小或其他参数时，通常会忽略低于某个频率的k-mer，因为它们大部分可能是测序错误引起的噪声。

如果样本具有较高的杂合性，在K-mer分布中往往会出现一个明显的次峰（heterozygous peak）。

这个次峰通常出现在主峰的一半左右覆盖深度的位置。这是因为异质性位点的 k-mer 出现频率较低，一般只有 1/2 的覆盖深度。

若次峰不明显或不存在，则通常说明样本纯合性较高，杂合性较低；反之，明显的次峰则反映了基因组中存在较高的遗传多样性。

一般来说，杂合峰在纯合峰的左侧，而且一般峰的面积、高度都是低于纯合峰的，但是图2的例子杂合度太高了

如图所示，hete=2.11%，即杂合度2.11%，一般>1%就认为杂合度很高了，有的物种例如百合甚至可达3%

有时曲线右侧会出现一个“尾部”或额外的小峰（图2的dup peak），这些部分往往对应于重复的序列。

这些高频的k-mers表明某些序列在基因组中出现了大量重复。

通过分析这一部分的面积，可以估计基因组中重复序列的比例。

当然我们肉眼只能看个大概，还是得做分析的人用GenomeScope2等软件去看

阅读 K-mer 分布曲线时，关键是看：