1. Genome Scope2.0介绍

仓库地址：tbenavi1/genomescope2.0: Reference-free profiling of polyploid genomes (github.com)

Genome Scope 2.0 是一款专为基因组分析而设计的工具，专门用于从高通量测序数据（如 Illumina 短读长）中估计基因组特征。它建立在原始 Genome Scope 方法的基础上，在处理复杂基因组和多倍体物种方面进行了改进。该软件广泛用于基因组研究，用于估计基因组大小、杂合性和从 k-mer 频率分布中重复序列内容。

主要特点：

基因组大小估计：它提供了对总基因组大小的快速可靠的估计，对于没有参考基因组的物种特别有用。
杂合性检测：Genome Scope 2.0 可以估计基因组内杂合位点的比例，这对于了解生物体的遗传多样性非常重要。
重复内容分析：它估计基因组中重复序列的比例，这对于理解基因组结构和进化至关重要。
多倍体基因组支持：该软件包括分析具有多组染色体（多倍体）的基因组的功能，使其适用于复杂的生物体。
基于 K-mer：该软件分析 k-mer 频率分布（测序读数中长度为 k 的子序列）以推断基因组特性。这使得它即使在装配不完整或不可用的情况下也能工作。
交互式可视化：Genome Scope 2.0 提供图形输出，允许用户直观地解释 k-mer 光谱和推断的基因组参数。

工作流程：

K-mer 计数：该软件需要一个 k-mer 计数文件作为输入，通常使用 Jellyfish 或 KMC 等工具生成。
模型拟合：Genome Scope 将数学模型与 k-mer 频率分布拟合，以估计基因组参数。
可视化：结果以数值估计和交互式图表的形式提供，这些图表描述了基因组大小、杂合性和重复内容。

2. Genome Scope2.0使用

开发者提供了网页版本，不需要配置环境或是安装其他依赖，比较方便。
地址：GenomeScope

1. 主界面

界面如下

image.png

2.数据的输入与检查

GenomeScope需要直方图文件（.hist）作为输入，这里我们使用右侧给的示例文件，导入后，点击“Submit”。这之后，会跳转到数据检查界面。.hist文件可以通过jellyfish、KMC或FastK来获得。其中jellyfish和KMC均输出两列数据，分别以空格和制表符分隔，FastK输出三列数据，需要对数据进行预处理才能导入到GenomeScope进行分析。数据检查通过后，点击“Continue”。

image.png

3.处理

点击"Continue"后，最下方会显示分析进度，当数据收敛后，列表打印“done”，就会跳转到结果界面。若未收敛“unconverged”，则会打印“failed”。

image.png

4. 结果分析

4.1 输出的图片
这个图显示的是一个高度纯合、测序错误率较低且几乎没有重复序列的基因组。主要的覆盖率峰值代表独特序列，而低覆盖率的小峰值主要由测序错误引起。总体来说，数据质量较高，模型对数据的拟合度也很好。

image.png

x轴：Coverage (覆盖率)
x轴代表的是k-mer的覆盖率，即测序读段中某个k-mer在数据中出现的频率。低覆盖率通常表示错误或低质量读段，而高覆盖率则可能是重复序列或高深度测序区域。
y轴：Frequency (频率)
y轴显示的是每个覆盖率对应的k-mer频率，即在测序数据中某个k-mer出现的总次数。
图例解读：

Observed (蓝色条纹)：这表示实际观察到的k-mer频率。可以看到它在低覆盖率处有一个小峰值（可能代表测序错误），并在较高覆盖率处有一个主要峰值，代表正确的序列数据。
Full model (黑线)：这是整个GenomeScope模型拟合到观察数据的结果，表示模型如何解释这些数据。黑线与蓝色条纹非常吻合，表示模型拟合效果良好。
Unique sequence (绿色线条)：这条线表示独特序列部分在模型中的预测。它基本上与主要覆盖峰值重合，表明大多数序列都是独特的。
Errors (橙色线条)：橙色线条在低覆盖率处有一个明显的峰值，表示这个区域可能代表测序错误的k-mers。
kmer-peaks (黑色虚线)：虚线表示k-mer频率分布中的一些关键峰值，这些峰值帮助确定覆盖率峰。

结果顶部的信息解读：

len: 4,579,149 bp：基因组的估计单倍体长度约为4.58 Mbp。
uniq: 98.4%：表示基因组中有98.4%的序列是独特的，不是重复序列。
aa: 99.8%：表示基因组中99.8%是纯合的序列（homozygous）。
ab: 0.156%：表示基因组中大约0.156%的序列是杂合的（heterozygous）。
kcov: 20：k-mer覆盖深度为20。
err: 0.0965%：表示读段的测序错误率为0.0965%。
dup: 0.96：这可能是重复序列的比例，接近1表明重复率很低。
k: 21, p: 2：表示使用了k-mer长度为21，模型中使用了多倍性假设的p=2（假设为二倍体）。

主要观察点：
低覆盖率的小峰值：代表测序错误或低质量数据，正如图中橙色线条所表示的那样。
高覆盖率的主要峰值：表示基因组中独特的序列，且模型表明这部分序列是纯合的，主要由绿色线条表示。
模型拟合度较高：黑线（Full model）与蓝色条纹（Observed）高度吻合，表明模型能够很好地解释测序数据。

4.2 Result部分

GenomeScope version 2.0
input file = user_uploads/unKpNqIeS98zyMs6xP2D
output directory = user_data/unKpNqIeS98zyMs6xP2D
p = 2
k = 21

property                      min               max               
Homozygous (aa)               99.8346%          99.8529%          
Heterozygous (ab)             0.147053%         0.165355%         
Genome Haploid Length         4,575,121 bp      4,579,149 bp      
Genome Repeat Length          72,103 bp         72,166 bp         
Genome Unique Length          4,503,018 bp      4,506,982 bp      
Model Fit                     97.4277%          98.8569%          
Read Error Rate               0.0964988%        0.0964988%

1. Homozygous (aa):
纯合序列比例（即两个等位基因相同的部分）。
范围：99.8346% 到 99.8529%
说明基因组中的大部分序列是纯合的，超过99.8%表示几乎所有的序列都是纯合的，杂合区域非常少。
2. Heterozygous (ab):
杂合序列比例（即两个等位基因不同的部分）。
范围：0.147053% 到 0.165355%
说明基因组中的杂合序列比例非常低，只有大约0.15%。这与高纯合度的结果一致。
3. Genome Haploid Length:
单倍体基因组的估计长度。
范围：4,575,121 bp 到 4,579,149 bp
基因组的单倍体长度估计在约4.57 Mb（百万碱基对）左右，表明这是一个相对较小的基因组。
4. Genome Repeat Length:
基因组中重复序列的总长度。
范围：72,103 bp 到 72,166 bp
重复序列的长度非常短，大约72 Kb（千碱基对），表示基因组中的重复片段比例很低。
5. Genome Unique Length:
基因组中独特序列的总长度。
范围：4,503,018 bp 到 4,506,982 bp
大多数基因组序列都是独特的，约为4.5 Mb。这与重重复片段少的推测一致。
6. Model Fit:
模型的拟合度，表示模型与实际数据之间的匹配程度。
范围：97.4277% 到 98.8569%
模型拟合度接近98%，说明GenomeScope的模型很好地解释了数据中的k-mer分布，表明测序数据质量高，模型假设合理。
7. Read Error Rate:
测序错误率。
值：0.0964988%
读段的错误率非常低，约为0.0965%，这说明测序数据质量较高，基本没有受到严重的测序错误影响。
总结：
高纯合度：基因组几乎完全是纯合的，杂合比例极低。这通常意味着该物种是自交繁殖或经过了严格的选择育种。
基因组小且重复序列少：单倍体基因组长度约为4.57 Mb，且只有约72 Kb是重复序列，这意味着这个基因组相对紧凑，重复元素非常少。
数据质量高：模型拟合度接近98%，测序错误率仅为0.0965%，说明测序数据质量非常高。
这些结果表明，测序样本来自于一个高度纯合、紧凑的基因组，数据质量良好，可以用于后续的基因组组装和注释等分析。

4.3 Model部分


Formula: y_transform ~ x^transform_exp * length * predict2_0(r1, k, d, 
    kmercov, bias, x)

Parameters:
         Estimate Std. Error t value Pr(>|t|)    
d       3.432e-03  3.340e-04   10.28   <2e-16 ***
r1      1.562e-03  4.576e-05   34.14   <2e-16 ***
kmercov 1.995e+01  4.390e-03 4545.45   <2e-16 ***
bias    9.600e-01  3.861e-03  248.65   <2e-16 ***
length  4.521e+06  3.699e+03 1222.00   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 16940 on 274 degrees of freedom

Number of iterations to convergence: 5 
Achieved convergence tolerance: 1.49e-08


这个结果来自于一个线性回归或广义线性模型的回归输出，目标是通过某个预测模型来预测目标变量y_transform，其中x、length、r1、kmercov、bias和d作为自变量。我们逐项解释这些参数和结果：

1. 公式:
y_transform ~ x^transform_exp * length * predict2_0(r1, k, d, kmercov, bias, x)

表示目标变量 y_transform 是自变量 x 的某种幂次（transform_exp）变换，以及其他变量（length、r1、kmercov、bias 和 d）的乘积的函数。

predict2_0 是一个预测函数，输入变量 r1、k、d、kmercov、bias 和 x。

2. 参数估计（Estimate）:
回归模型中各参数的估计值表明每个参数对 y_transform 的影响方向和大小。所有这些参数的估计值都非常显著（p值<2e-16），意味着它们对模型的预测能力有很大贡献。
主要参数：

d (3.432e-03):
d 对 y_transform 有正向影响。它的估计值为0.003432，意味着当其他变量保持不变时，d 的增加会导致 y_transform 小幅上升。

r1 (1.562e-03):
r1 也对 y_transform 有正向影响，估计值为0.001562，表明 r1 的增加也会导致 y_transform 增加。

kmercov (1.995e+01):
这是一个较大的估计值，19.95，表明 k-mer 覆盖率（kmercov）对 y_transform 的影响非常大。kmercov 的每个单位增加都会显著提高预测变量。

bias (9.600e-01):
偏差（bias）的估计值为0.96，接近于1，表明它对 y_transform 的影响非常接近线性。

length (4.521e+06):
基因组长度（length）的估计值为4,521,000，表明长度是一个决定性因素，在其他变量不变的情况下，它对 y_transform 有很大的贡献。

3. 标准误差（Std. Error）:
标准误差显示了每个估计值的统计精度。较小的标准误差表明估计值更可靠，较大的标准误差则表明估计值不太精确。
这里所有参数的标准误差都非常小，尤其是 kmercov、r1 和 bias，这表明这些估计值非常精确。

4. t值（t value）和 p值（Pr(>|t|)）:
t值 用于检验每个参数是否显著不为零。较大的 t 值意味着该参数对模型有显著的影响。
p值 代表显著性水平。这里所有的 p值都远小于 0.001。

5. 残差标准误差（Residual Standard Error）:
残差标准误差表示模型预测值与实际观察值之间的差异大小。残差标准误差越小，表示模型拟合度越好。

6. 收敛情况:
迭代次数：5：表示模型在5次迭代内达到了收敛。
收敛公差：1.49e-08。

基因组分析软件（二）Genome Scope2.0

基因组分析软件（二）Genome Scope2.0

1. Genome Scope2.0介绍

2. Genome Scope2.0使用

1. 主界面

2.数据的输入与检查

3.处理

4. 结果分析

推荐阅读更多精彩内容