BUSCO官网:https://busco.ezlab.org/
BUSCO数据库:https://busco-data.ezlab.org/v4/data/lineages/
1. 下载数据库
根据物种,选择需要作为参考的数据库,建议下载到本地后上传至服务器,直接使用wget命令下载可能会有问题。
2. 解压缩
命令:tar zxf [压缩文件路径] -C [目标路径]
目标路径:~/busco_downloads/lineages
以真菌数据库为例,解压后文件名为【fungi_odb10】,必须解压至默认路径【busco_downloads/lineages】中,不然后续会报错,解压缩后数据库中内容如下:
3. 运行BUSCO程序
3.1 常规运行
常规命令:busco -i [输入文件] -l [数据库] -o [输出文件名] -m [genome]
实例:busco -i genome/data/genome.fasta -l fungi_odb10 -o busco_output -m genome
-i or --in 输入文件,可以核酸、蛋白或转录组的fasta文件
-l or --lineage_dataset 比对的参考数据库,可以是程序中固定的名称【即下载解压后参考数据库的默认名,推荐】
-o or --out 输出文件
-m or --mode 模式:genome, proteins, transcriptome
注:-l 后的参考数据库不能是路径!!!-l 的默认路径是【busco_downloads/lineages】
3.2 运行联网可能会由于网络问题导致运行出错,推荐选择离线运行。
离线运行:busco -i [输入文件] -l [数据库] -o [输出文件名] -m [genome] --offline 【推荐】
实例:busco -i genome/data/genome.fasta -l fungi_odb10 -o busco_output -m genome --offline
3.3 万无一失版本,离线+后台运行
后台运行:nohup busco -i [输入文件] -l [数据库] -o [输出文件名] -m [genome] --offline >busco_test.log 2>&1 &
实例:nohup busco -i genome/data/genome.fasta -l fungi_odb10 -o busco_output -m genome --offline >busco_test.log 2>&1 &
等待运行结束即可,可通过log日志查看运行进程。
4. 运行结果文件如下
文件夹logs中可查看运行过程,运行最终结果在short_summary.***.txt中,如下
【fungi_odb10】真菌数据库中共有758个BUSCO groups,测序基因组中753(99.3%)个被完整比对上(包括753个单拷贝和0个多拷贝),2个部分比对上,3个完全没有比对上。
通常用 【完整比对数量 / 数据库中的总数量】比例作为BUSCO的重要结果,越高说明基因组组装完整性越好,这里是99.3%=753/758。
5. 绘图
5.1 建议多比对几个数据库,绘图好看。可以从【界】【门】【纲】【目】【科】水平,寻找busco对应数据库(但是不一定每个分类水平都有数据库)。
5.2 将所有结果文件夹中的【short_summary.***.txt】放在一个新的文件夹中【result】。
5.3 运行python "busco/scripts/generate_plot.py" -wd "result"
5.4 【result】文件夹中自动生成【busco_figure.R】文件和绘图结果。
5.5 在R中运行文件【busco_figure.R】,需要安装ggplot2包才能实现绘图。可以对文件中的命令进行修改实现个性化输出。