BUSCO评估基因组完整性

官网 https://busco.ezlab.org/

1、在线工具(http://usegalaxy.cn

BUSCO是评估基因组完整性时不可或缺的工具。也直接在Galaxy生信云(http://usegalaxy.cn)平台上快捷运行BUSCO

2、本地运行(Ubuntu)

install

conda create -n busco
conda install conda

downloading database

数据库下载地址 https://busco-data.ezlab.org/v5/data/lineages/,选择合适的数据库。
服务器联网了也可不下载

run

busco -i genome.fa \
    -o result \
    -m geno \
    -l /media/home/xx/DataBase/busco/lineages/bacteria_odb10/ \
    -c 40 \
    --offline

1) -i genome.fa:-i 指定输入文件,这里 genome.fa 是待评估的基因组序列文件,格式为 FASTA。
2) -o brassicales_odb10:-o 指定输出文件夹的前缀,分析结果保存在 result文件夹。
3) -m geno:指定分析的模式。geno 表示执行 基因组模式(Genome mode)分析,适用于基因组装配数据(DNA)。其他模式包括 tran(转录组模式)和 prot(蛋白质模式)。
4)  -l /media/home/xx/DataBase/busco/lineages/bacteria_odb10/:-l 指定使用的BUSCO数据库。这里使用的是 bacteria_odb10 数据库(细菌)。要使用busco --list-datasets 命令去查一下物种应该分类于哪个数据库。
5) -c 40:指定线程数
6)-offline:不联网,用本地数据库

results,见short_summary.specific.bacteria_odb10.result.txt

# BUSCO version is: 5.4.6 
# The lineage dataset is:  (Creation date: 2020-03-06, number of genomes: 4085, number of BUSCOs: 124)
# Summarized benchmarking in BUSCO notation for file /media/ust/home/chenyw/project/bacteria/weiji_2bac_20250320/Result/02.Assembly/quast/Y10># BUSCO was run in mode: prok_genome
# Gene predictor used: prodigal

        ***** Results: *****

        C:99.2%[S:96.8%,D:2.4%],F:0.8%,M:0.0%,n:124        
        123     Complete BUSCOs (C)                        
        120     Complete and single-copy BUSCOs (S)        
        3       Complete and duplicated BUSCOs (D)         
        1       Fragmented BUSCOs (F)                      
        0       Missing BUSCOs (M)                         
        124     Total BUSCO groups searched                

Assembly Statistics:
        1       Number of scaffolds
        1       Number of contigs
        4819082 Total length
        0.000%  Percent gaps
        4 MB    Scaffold N50
        4 MB    Contigs N50


Dependencies and versions:
        hmmsearch: 3.1
        bbtools: 39.01
        prodigal: 2.6.3
        busco: 5.4.6
    C: 99.2%:表示在总 BUSCO 基因组中的完整 BUSCO 基因数所占比例是 99.2%。该值表示输入的基因组序列中有 99.2% 的基因是完整的。

    S: 96.8%:其中 96.8%的 BUSCO 基因是单拷贝基因(single-copy),没有重复,基因组序列中仅存在一次。

    D: 2.4%:其中 2.4% 的 BUSCO 基因是重复基因(duplicated),在基因组序列中有多个拷贝。

    F: 0.8%:表示有 0.8% 的 BUSCO 基因是碎片化的(fragmented),部分基因不完整。

    M: 0.0%:表示有 0.0% 的 BUSCO 基因缺失(missing),基因组序列中未找到这些基因。

    n: 124:表示使用的 BUSCO 基因组数据库中的 BUSCO 基因总数是 4596 个。

    123 Complete BUSCOs (C):在基因组中检测到 123 个完整的 BUSCO 基因。

    120 Complete and single-copy BUSCOs (S):在完整 BUSCO 基因中,120 个是单拷贝的基因。

    3 Complete and duplicated BUSCOs (D):在完整 BUSCO 基因中,有3 个是重复的基因。

    1 Fragmented BUSCOs (F):在基因组中检测到 1 个 BUSCO 基因是碎片化的,说明这些基因并不完整。

    0 Missing BUSCOs (M):有0个 BUSCO 基因在基因组中未检测到。

Reference:
https://blog.csdn.net/u012110870/article/details/82500741
https://blog.csdn.net/qq_64400864/article/details/146987071

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容