1. Genome Scope2.0介绍
仓库地址:tbenavi1/genomescope2.0: Reference-free profiling of polyploid genomes (github.com)
Genome Scope 2.0 是一款专为基因组分析而设计的工具,专门用于从高通量测序数据(如 Illumina 短读长)中估计基因组特征。它建立在原始 Genome Scope 方法的基础上,在处理复杂基因组和多倍体物种方面进行了改进。该软件广泛用于基因组研究,用于估计基因组大小、杂合性和从 k-mer 频率分布中重复序列内容。
- 主要特点:
- 基因组大小估计:它提供了对总基因组大小的快速可靠的估计,对于没有参考基因组的物种特别有用。
- 杂合性检测:Genome Scope 2.0 可以估计基因组内杂合位点的比例,这对于了解生物体的遗传多样性非常重要。
- 重复内容分析:它估计基因组中重复序列的比例,这对于理解基因组结构和进化至关重要。
- 多倍体基因组支持:该软件包括分析具有多组染色体(多倍体)的基因组的功能,使其适用于复杂的生物体。
- 基于 K-mer:该软件分析 k-mer 频率分布(测序读数中长度为 k 的子序列)以推断基因组特性。这使得它即使在装配不完整或不可用的情况下也能工作。
- 交互式可视化:Genome Scope 2.0 提供图形输出,允许用户直观地解释 k-mer 光谱和推断的基因组参数。
- 工作流程:
- K-mer 计数:该软件需要一个 k-mer 计数文件作为输入,通常使用 Jellyfish 或 KMC 等工具生成。
- 模型拟合:Genome Scope 将数学模型与 k-mer 频率分布拟合,以估计基因组参数。
- 可视化:结果以数值估计和交互式图表的形式提供,这些图表描述了基因组大小、杂合性和重复内容。
2. Genome Scope2.0使用
开发者提供了网页版本,不需要配置环境或是安装其他依赖,比较方便。
地址:GenomeScope
1. 主界面
界面如下
2.数据的输入与检查
GenomeScope需要直方图文件(.hist)作为输入,这里我们使用右侧给的示例文件,导入后,点击“Submit”。这之后,会跳转到数据检查界面。.hist文件可以通过jellyfish、KMC或FastK来获得。其中jellyfish和KMC均输出两列数据,分别以空格和制表符分隔,FastK输出三列数据,需要对数据进行预处理才能导入到GenomeScope进行分析。数据检查通过后,点击“Continue”。
3.处理
点击"Continue"后,最下方会显示分析进度,当数据收敛后,列表打印“done”,就会跳转到结果界面。若未收敛“unconverged”,则会打印“failed”。
4. 结果分析
4.1 输出的图片
这个图显示的是一个高度纯合、测序错误率较低且几乎没有重复序列的基因组。主要的覆盖率峰值代表独特序列,而低覆盖率的小峰值主要由测序错误引起。总体来说,数据质量较高,模型对数据的拟合度也很好。
x轴:Coverage (覆盖率)
x轴代表的是k-mer的覆盖率,即测序读段中某个k-mer在数据中出现的频率。低覆盖率通常表示错误或低质量读段,而高覆盖率则可能是重复序列或高深度测序区域。y轴:Frequency (频率)
y轴显示的是每个覆盖率对应的k-mer频率,即在测序数据中某个k-mer出现的总次数。图例解读:
Observed (蓝色条纹):这表示实际观察到的k-mer频率。可以看到它在低覆盖率处有一个小峰值(可能代表测序错误),并在较高覆盖率处有一个主要峰值,代表正确的序列数据。
Full model (黑线):这是整个GenomeScope模型拟合到观察数据的结果,表示模型如何解释这些数据。黑线与蓝色条纹非常吻合,表示模型拟合效果良好。
Unique sequence (绿色线条):这条线表示独特序列部分在模型中的预测。它基本上与主要覆盖峰值重合,表明大多数序列都是独特的。
Errors (橙色线条):橙色线条在低覆盖率处有一个明显的峰值,表示这个区域可能代表测序错误的k-mers。
kmer-peaks (黑色虚线):虚线表示k-mer频率分布中的一些关键峰值,这些峰值帮助确定覆盖率峰。
- 结果顶部的信息解读:
len: 4,579,149 bp:基因组的估计单倍体长度约为4.58 Mbp。
uniq: 98.4%:表示基因组中有98.4%的序列是独特的,不是重复序列。
aa: 99.8%:表示基因组中99.8%是纯合的序列(homozygous)。
ab: 0.156%:表示基因组中大约0.156%的序列是杂合的(heterozygous)。
kcov: 20:k-mer覆盖深度为20。
err: 0.0965%:表示读段的测序错误率为0.0965%。
dup: 0.96:这可能是重复序列的比例,接近1表明重复率很低。
k: 21, p: 2:表示使用了k-mer长度为21,模型中使用了多倍性假设的p=2(假设为二倍体)。
- 主要观察点:
低覆盖率的小峰值:代表测序错误或低质量数据,正如图中橙色线条所表示的那样。
高覆盖率的主要峰值:表示基因组中独特的序列,且模型表明这部分序列是纯合的,主要由绿色线条表示。
模型拟合度较高:黑线(Full model)与蓝色条纹(Observed)高度吻合,表明模型能够很好地解释测序数据。
4.2 Result部分
GenomeScope version 2.0
input file = user_uploads/unKpNqIeS98zyMs6xP2D
output directory = user_data/unKpNqIeS98zyMs6xP2D
p = 2
k = 21
property min max
Homozygous (aa) 99.8346% 99.8529%
Heterozygous (ab) 0.147053% 0.165355%
Genome Haploid Length 4,575,121 bp 4,579,149 bp
Genome Repeat Length 72,103 bp 72,166 bp
Genome Unique Length 4,503,018 bp 4,506,982 bp
Model Fit 97.4277% 98.8569%
Read Error Rate 0.0964988% 0.0964988%
1. Homozygous (aa):
纯合序列比例(即两个等位基因相同的部分)。
范围:99.8346% 到 99.8529%
说明基因组中的大部分序列是纯合的,超过99.8%表示几乎所有的序列都是纯合的,杂合区域非常少。
2. Heterozygous (ab):
杂合序列比例(即两个等位基因不同的部分)。
范围:0.147053% 到 0.165355%
说明基因组中的杂合序列比例非常低,只有大约0.15%。这与高纯合度的结果一致。
3. Genome Haploid Length:
单倍体基因组的估计长度。
范围:4,575,121 bp 到 4,579,149 bp
基因组的单倍体长度估计在约4.57 Mb(百万碱基对)左右,表明这是一个相对较小的基因组。
4. Genome Repeat Length:
基因组中重复序列的总长度。
范围:72,103 bp 到 72,166 bp
重复序列的长度非常短,大约72 Kb(千碱基对),表示基因组中的重复片段比例很低。
5. Genome Unique Length:
基因组中独特序列的总长度。
范围:4,503,018 bp 到 4,506,982 bp
大多数基因组序列都是独特的,约为4.5 Mb。这与重重复片段少的推测一致。
6. Model Fit:
模型的拟合度,表示模型与实际数据之间的匹配程度。
范围:97.4277% 到 98.8569%
模型拟合度接近98%,说明GenomeScope的模型很好地解释了数据中的k-mer分布,表明测序数据质量高,模型假设合理。
7. Read Error Rate:
测序错误率。
值:0.0964988%
读段的错误率非常低,约为0.0965%,这说明测序数据质量较高,基本没有受到严重的测序错误影响。
总结:
高纯合度:基因组几乎完全是纯合的,杂合比例极低。这通常意味着该物种是自交繁殖或经过了严格的选择育种。
基因组小且重复序列少:单倍体基因组长度约为4.57 Mb,且只有约72 Kb是重复序列,这意味着这个基因组相对紧凑,重复元素非常少。
数据质量高:模型拟合度接近98%,测序错误率仅为0.0965%,说明测序数据质量非常高。
这些结果表明,测序样本来自于一个高度纯合、紧凑的基因组,数据质量良好,可以用于后续的基因组组装和注释等分析。
4.3 Model部分
Formula: y_transform ~ x^transform_exp * length * predict2_0(r1, k, d,
kmercov, bias, x)
Parameters:
Estimate Std. Error t value Pr(>|t|)
d 3.432e-03 3.340e-04 10.28 <2e-16 ***
r1 1.562e-03 4.576e-05 34.14 <2e-16 ***
kmercov 1.995e+01 4.390e-03 4545.45 <2e-16 ***
bias 9.600e-01 3.861e-03 248.65 <2e-16 ***
length 4.521e+06 3.699e+03 1222.00 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 16940 on 274 degrees of freedom
Number of iterations to convergence: 5
Achieved convergence tolerance: 1.49e-08
这个结果来自于一个线性回归或广义线性模型的回归输出,目标是通过某个预测模型来预测目标变量y_transform,其中x、length、r1、kmercov、bias和d作为自变量。我们逐项解释这些参数和结果:
1. 公式:
y_transform ~ x^transform_exp * length * predict2_0(r1, k, d, kmercov, bias, x)
表示目标变量 y_transform 是自变量 x 的某种幂次(transform_exp)变换,以及其他变量(length、r1、kmercov、bias 和 d)的乘积的函数。
predict2_0 是一个预测函数,输入变量 r1、k、d、kmercov、bias 和 x。
2. 参数估计(Estimate):
回归模型中各参数的估计值表明每个参数对 y_transform 的影响方向和大小。所有这些参数的估计值都非常显著(p值<2e-16),意味着它们对模型的预测能力有很大贡献。
主要参数:
d (3.432e-03):
d 对 y_transform 有正向影响。它的估计值为0.003432,意味着当其他变量保持不变时,d 的增加会导致 y_transform 小幅上升。
r1 (1.562e-03):
r1 也对 y_transform 有正向影响,估计值为0.001562,表明 r1 的增加也会导致 y_transform 增加。
kmercov (1.995e+01):
这是一个较大的估计值,19.95,表明 k-mer 覆盖率(kmercov)对 y_transform 的影响非常大。kmercov 的每个单位增加都会显著提高预测变量。
bias (9.600e-01):
偏差(bias)的估计值为0.96,接近于1,表明它对 y_transform 的影响非常接近线性。
length (4.521e+06):
基因组长度(length)的估计值为4,521,000,表明长度是一个决定性因素,在其他变量不变的情况下,它对 y_transform 有很大的贡献。
3. 标准误差(Std. Error):
标准误差显示了每个估计值的统计精度。较小的标准误差表明估计值更可靠,较大的标准误差则表明估计值不太精确。
这里所有参数的标准误差都非常小,尤其是 kmercov、r1 和 bias,这表明这些估计值非常精确。
4. t值(t value)和 p值(Pr(>|t|)):
t值 用于检验每个参数是否显著不为零。较大的 t 值意味着该参数对模型有显著的影响。
p值 代表显著性水平。这里所有的 p值都远小于 0.001。
5. 残差标准误差(Residual Standard Error):
残差标准误差表示模型预测值与实际观察值之间的差异大小。残差标准误差越小,表示模型拟合度越好。
6. 收敛情况:
迭代次数:5:表示模型在5次迭代内达到了收敛。
收敛公差:1.49e-08。