1、在线工具(http://usegalaxy.cn)
BUSCO是评估基因组完整性时不可或缺的工具。也直接在Galaxy生信云(http://usegalaxy.cn)平台上快捷运行BUSCO
2、本地运行(Ubuntu)
install
conda create -n busco
conda install conda
downloading database
数据库下载地址 https://busco-data.ezlab.org/v5/data/lineages/,选择合适的数据库。
服务器联网了也可不下载
run
busco -i genome.fa \
-o result \
-m geno \
-l /media/home/xx/DataBase/busco/lineages/bacteria_odb10/ \
-c 40 \
--offline
1) -i genome.fa:-i 指定输入文件,这里 genome.fa 是待评估的基因组序列文件,格式为 FASTA。
2) -o brassicales_odb10:-o 指定输出文件夹的前缀,分析结果保存在 result文件夹。
3) -m geno:指定分析的模式。geno 表示执行 基因组模式(Genome mode)分析,适用于基因组装配数据(DNA)。其他模式包括 tran(转录组模式)和 prot(蛋白质模式)。
4) -l /media/home/xx/DataBase/busco/lineages/bacteria_odb10/:-l 指定使用的BUSCO数据库。这里使用的是 bacteria_odb10 数据库(细菌)。要使用busco --list-datasets 命令去查一下物种应该分类于哪个数据库。
5) -c 40:指定线程数
6)-offline:不联网,用本地数据库
results,见short_summary.specific.bacteria_odb10.result.txt
# BUSCO version is: 5.4.6
# The lineage dataset is: (Creation date: 2020-03-06, number of genomes: 4085, number of BUSCOs: 124)
# Summarized benchmarking in BUSCO notation for file /media/ust/home/chenyw/project/bacteria/weiji_2bac_20250320/Result/02.Assembly/quast/Y10># BUSCO was run in mode: prok_genome
# Gene predictor used: prodigal
***** Results: *****
C:99.2%[S:96.8%,D:2.4%],F:0.8%,M:0.0%,n:124
123 Complete BUSCOs (C)
120 Complete and single-copy BUSCOs (S)
3 Complete and duplicated BUSCOs (D)
1 Fragmented BUSCOs (F)
0 Missing BUSCOs (M)
124 Total BUSCO groups searched
Assembly Statistics:
1 Number of scaffolds
1 Number of contigs
4819082 Total length
0.000% Percent gaps
4 MB Scaffold N50
4 MB Contigs N50
Dependencies and versions:
hmmsearch: 3.1
bbtools: 39.01
prodigal: 2.6.3
busco: 5.4.6
C: 99.2%:表示在总 BUSCO 基因组中的完整 BUSCO 基因数所占比例是 99.2%。该值表示输入的基因组序列中有 99.2% 的基因是完整的。
S: 96.8%:其中 96.8%的 BUSCO 基因是单拷贝基因(single-copy),没有重复,基因组序列中仅存在一次。
D: 2.4%:其中 2.4% 的 BUSCO 基因是重复基因(duplicated),在基因组序列中有多个拷贝。
F: 0.8%:表示有 0.8% 的 BUSCO 基因是碎片化的(fragmented),部分基因不完整。
M: 0.0%:表示有 0.0% 的 BUSCO 基因缺失(missing),基因组序列中未找到这些基因。
n: 124:表示使用的 BUSCO 基因组数据库中的 BUSCO 基因总数是 4596 个。
123 Complete BUSCOs (C):在基因组中检测到 123 个完整的 BUSCO 基因。
120 Complete and single-copy BUSCOs (S):在完整 BUSCO 基因中,120 个是单拷贝的基因。
3 Complete and duplicated BUSCOs (D):在完整 BUSCO 基因中,有3 个是重复的基因。
1 Fragmented BUSCOs (F):在基因组中检测到 1 个 BUSCO 基因是碎片化的,说明这些基因并不完整。
0 Missing BUSCOs (M):有0个 BUSCO 基因在基因组中未检测到。
Reference:
https://blog.csdn.net/u012110870/article/details/82500741
https://blog.csdn.net/qq_64400864/article/details/146987071