基因组分析软件(二)Genome Scope2.0

1. Genome Scope2.0介绍

仓库地址:tbenavi1/genomescope2.0: Reference-free profiling of polyploid genomes (github.com)

Genome Scope 2.0 是一款专为基因组分析而设计的工具,专门用于从高通量测序数据(如 Illumina 短读长)中估计基因组特征。它建立在原始 Genome Scope 方法的基础上,在处理复杂基因组和多倍体物种方面进行了改进。该软件广泛用于基因组研究,用于估计基因组大小、杂合性和从 k-mer 频率分布中重复序列内容。

  1. 主要特点:
  • 基因组大小估计:它提供了对总基因组大小的快速可靠的估计,对于没有参考基因组的物种特别有用。
  • 杂合性检测:Genome Scope 2.0 可以估计基因组内杂合位点的比例,这对于了解生物体的遗传多样性非常重要。
  • 重复内容分析:它估计基因组中重复序列的比例,这对于理解基因组结构和进化至关重要。
  • 多倍体基因组支持:该软件包括分析具有多组染色体(多倍体)的基因组的功能,使其适用于复杂的生物体。
  • 基于 K-mer:该软件分析 k-mer 频率分布(测序读数中长度为 k 的子序列)以推断基因组特性。这使得它即使在装配不完整或不可用的情况下也能工作。
  • 交互式可视化:Genome Scope 2.0 提供图形输出,允许用户直观地解释 k-mer 光谱和推断的基因组参数。
  1. 工作流程:
  • K-mer 计数:该软件需要一个 k-mer 计数文件作为输入,通常使用 Jellyfish 或 KMC 等工具生成。
  • 模型拟合:Genome Scope 将数学模型与 k-mer 频率分布拟合,以估计基因组参数。
  • 可视化:结果以数值估计和交互式图表的形式提供,这些图表描述了基因组大小、杂合性和重复内容。

2. Genome Scope2.0使用

开发者提供了网页版本,不需要配置环境或是安装其他依赖,比较方便。
地址:GenomeScope

1. 主界面

界面如下


image.png
2.数据的输入与检查

GenomeScope需要直方图文件(.hist)作为输入,这里我们使用右侧给的示例文件,导入后,点击“Submit”。这之后,会跳转到数据检查界面。.hist文件可以通过jellyfish、KMC或FastK来获得。其中jellyfish和KMC均输出两列数据,分别以空格和制表符分隔,FastK输出三列数据,需要对数据进行预处理才能导入到GenomeScope进行分析。数据检查通过后,点击“Continue”。


image.png
3.处理

点击"Continue"后,最下方会显示分析进度,当数据收敛后,列表打印“done”,就会跳转到结果界面。若未收敛“unconverged”,则会打印“failed”。


image.png
4. 结果分析

4.1 输出的图片
这个图显示的是一个高度纯合、测序错误率较低且几乎没有重复序列的基因组。主要的覆盖率峰值代表独特序列,而低覆盖率的小峰值主要由测序错误引起。总体来说,数据质量较高,模型对数据的拟合度也很好。


image.png
  • x轴:Coverage (覆盖率)
    x轴代表的是k-mer的覆盖率,即测序读段中某个k-mer在数据中出现的频率。低覆盖率通常表示错误或低质量读段,而高覆盖率则可能是重复序列或高深度测序区域。

  • y轴:Frequency (频率)
    y轴显示的是每个覆盖率对应的k-mer频率,即在测序数据中某个k-mer出现的总次数。

  • 图例解读:

Observed (蓝色条纹):这表示实际观察到的k-mer频率。可以看到它在低覆盖率处有一个小峰值(可能代表测序错误),并在较高覆盖率处有一个主要峰值,代表正确的序列数据。
Full model (黑线):这是整个GenomeScope模型拟合到观察数据的结果,表示模型如何解释这些数据。黑线与蓝色条纹非常吻合,表示模型拟合效果良好。
Unique sequence (绿色线条):这条线表示独特序列部分在模型中的预测。它基本上与主要覆盖峰值重合,表明大多数序列都是独特的。
Errors (橙色线条):橙色线条在低覆盖率处有一个明显的峰值,表示这个区域可能代表测序错误的k-mers。
kmer-peaks (黑色虚线):虚线表示k-mer频率分布中的一些关键峰值,这些峰值帮助确定覆盖率峰。
  • 结果顶部的信息解读:
len: 4,579,149 bp:基因组的估计单倍体长度约为4.58 Mbp。
uniq: 98.4%:表示基因组中有98.4%的序列是独特的,不是重复序列。
aa: 99.8%:表示基因组中99.8%是纯合的序列(homozygous)。
ab: 0.156%:表示基因组中大约0.156%的序列是杂合的(heterozygous)。
kcov: 20:k-mer覆盖深度为20。
err: 0.0965%:表示读段的测序错误率为0.0965%。
dup: 0.96:这可能是重复序列的比例,接近1表明重复率很低。
k: 21, p: 2:表示使用了k-mer长度为21,模型中使用了多倍性假设的p=2(假设为二倍体)。
  • 主要观察点:
    低覆盖率的小峰值:代表测序错误或低质量数据,正如图中橙色线条所表示的那样。
    高覆盖率的主要峰值:表示基因组中独特的序列,且模型表明这部分序列是纯合的,主要由绿色线条表示。
    模型拟合度较高:黑线(Full model)与蓝色条纹(Observed)高度吻合,表明模型能够很好地解释测序数据。

4.2 Result部分

GenomeScope version 2.0
input file = user_uploads/unKpNqIeS98zyMs6xP2D
output directory = user_data/unKpNqIeS98zyMs6xP2D
p = 2
k = 21

property                      min               max               
Homozygous (aa)               99.8346%          99.8529%          
Heterozygous (ab)             0.147053%         0.165355%         
Genome Haploid Length         4,575,121 bp      4,579,149 bp      
Genome Repeat Length          72,103 bp         72,166 bp         
Genome Unique Length          4,503,018 bp      4,506,982 bp      
Model Fit                     97.4277%          98.8569%          
Read Error Rate               0.0964988%        0.0964988% 
1. Homozygous (aa):
纯合序列比例(即两个等位基因相同的部分)。
范围:99.8346% 到 99.8529%
说明基因组中的大部分序列是纯合的,超过99.8%表示几乎所有的序列都是纯合的,杂合区域非常少。
2. Heterozygous (ab):
杂合序列比例(即两个等位基因不同的部分)。
范围:0.147053% 到 0.165355%
说明基因组中的杂合序列比例非常低,只有大约0.15%。这与高纯合度的结果一致。
3. Genome Haploid Length:
单倍体基因组的估计长度。
范围:4,575,121 bp 到 4,579,149 bp
基因组的单倍体长度估计在约4.57 Mb(百万碱基对)左右,表明这是一个相对较小的基因组。
4. Genome Repeat Length:
基因组中重复序列的总长度。
范围:72,103 bp 到 72,166 bp
重复序列的长度非常短,大约72 Kb(千碱基对),表示基因组中的重复片段比例很低。
5. Genome Unique Length:
基因组中独特序列的总长度。
范围:4,503,018 bp 到 4,506,982 bp
大多数基因组序列都是独特的,约为4.5 Mb。这与重重复片段少的推测一致。
6. Model Fit:
模型的拟合度,表示模型与实际数据之间的匹配程度。
范围:97.4277% 到 98.8569%
模型拟合度接近98%,说明GenomeScope的模型很好地解释了数据中的k-mer分布,表明测序数据质量高,模型假设合理。
7. Read Error Rate:
测序错误率。
值:0.0964988%
读段的错误率非常低,约为0.0965%,这说明测序数据质量较高,基本没有受到严重的测序错误影响。
总结:
高纯合度:基因组几乎完全是纯合的,杂合比例极低。这通常意味着该物种是自交繁殖或经过了严格的选择育种。
基因组小且重复序列少:单倍体基因组长度约为4.57 Mb,且只有约72 Kb是重复序列,这意味着这个基因组相对紧凑,重复元素非常少。
数据质量高:模型拟合度接近98%,测序错误率仅为0.0965%,说明测序数据质量非常高。
这些结果表明,测序样本来自于一个高度纯合、紧凑的基因组,数据质量良好,可以用于后续的基因组组装和注释等分析。

4.3 Model部分


Formula: y_transform ~ x^transform_exp * length * predict2_0(r1, k, d, 
    kmercov, bias, x)

Parameters:
         Estimate Std. Error t value Pr(>|t|)    
d       3.432e-03  3.340e-04   10.28   <2e-16 ***
r1      1.562e-03  4.576e-05   34.14   <2e-16 ***
kmercov 1.995e+01  4.390e-03 4545.45   <2e-16 ***
bias    9.600e-01  3.861e-03  248.65   <2e-16 ***
length  4.521e+06  3.699e+03 1222.00   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 16940 on 274 degrees of freedom

Number of iterations to convergence: 5 
Achieved convergence tolerance: 1.49e-08

这个结果来自于一个线性回归或广义线性模型的回归输出,目标是通过某个预测模型来预测目标变量y_transform,其中x、length、r1、kmercov、bias和d作为自变量。我们逐项解释这些参数和结果:

1. 公式:
y_transform ~ x^transform_exp * length * predict2_0(r1, k, d, kmercov, bias, x)

表示目标变量 y_transform 是自变量 x 的某种幂次(transform_exp)变换,以及其他变量(length、r1、kmercov、bias 和 d)的乘积的函数。

predict2_0 是一个预测函数,输入变量 r1、k、d、kmercov、bias 和 x。

2. 参数估计(Estimate):
回归模型中各参数的估计值表明每个参数对 y_transform 的影响方向和大小。所有这些参数的估计值都非常显著(p值<2e-16),意味着它们对模型的预测能力有很大贡献。
主要参数:

d (3.432e-03):
d 对 y_transform 有正向影响。它的估计值为0.003432,意味着当其他变量保持不变时,d 的增加会导致 y_transform 小幅上升。

r1 (1.562e-03):
r1 也对 y_transform 有正向影响,估计值为0.001562,表明 r1 的增加也会导致 y_transform 增加。

kmercov (1.995e+01):
这是一个较大的估计值,19.95,表明 k-mer 覆盖率(kmercov)对 y_transform 的影响非常大。kmercov 的每个单位增加都会显著提高预测变量。

bias (9.600e-01):
偏差(bias)的估计值为0.96,接近于1,表明它对 y_transform 的影响非常接近线性。

length (4.521e+06):
基因组长度(length)的估计值为4,521,000,表明长度是一个决定性因素,在其他变量不变的情况下,它对 y_transform 有很大的贡献。

3. 标准误差(Std. Error):
标准误差显示了每个估计值的统计精度。较小的标准误差表明估计值更可靠,较大的标准误差则表明估计值不太精确。
这里所有参数的标准误差都非常小,尤其是 kmercov、r1 和 bias,这表明这些估计值非常精确。

4. t值(t value)和 p值(Pr(>|t|)):
t值 用于检验每个参数是否显著不为零。较大的 t 值意味着该参数对模型有显著的影响。
p值 代表显著性水平。这里所有的 p值都远小于 0.001。

5. 残差标准误差(Residual Standard Error):
残差标准误差表示模型预测值与实际观察值之间的差异大小。残差标准误差越小,表示模型拟合度越好。

6. 收敛情况:
迭代次数:5:表示模型在5次迭代内达到了收敛。
收敛公差:1.49e-08。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容