使用BUSCO检测基因组组装完整性

BUSCO官网:https://busco.ezlab.org/

BUSCO数据库:https://busco-data.ezlab.org/v4/data/lineages/

1. 下载数据库

根据物种,选择需要作为参考的数据库,建议下载到本地后上传至服务器,直接使用wget命令下载可能会有问题。

2. 解压缩

命令:tar zxf [压缩文件路径] -C [目标路径]

目标路径:~/busco_downloads/lineages

以真菌数据库为例,解压后文件名为【fungi_odb10】,必须解压至默认路径【busco_downloads/lineages】中,不然后续会报错,解压缩后数据库中内容如下:

3. 运行BUSCO程序

3.1 常规运行

常规命令:busco -i [输入文件] -l [数据库] -o [输出文件名] -m [genome]

实例:busco -i genome/data/genome.fasta -l fungi_odb10 -o busco_output -m genome 

-i or --in 输入文件,可以核酸、蛋白或转录组的fasta文件

-l or --lineage_dataset 比对的参考数据库,可以是程序中固定的名称【即下载解压后参考数据库的默认名,推荐】

-o or --out 输出文件

-m or --mode 模式:genome, proteins, transcriptome

注:-l 后的参考数据库不能是路径!!!-l 的默认路径是【busco_downloads/lineages】


3.2 运行联网可能会由于网络问题导致运行出错,推荐选择离线运行。

离线运行:busco -i [输入文件] -l [数据库] -o [输出文件名] -m [genome] --offline 【推荐】

实例:busco -i genome/data/genome.fasta -l fungi_odb10 -o busco_output -m genome  --offline 


3.3 万无一失版本,离线+后台运行

后台运行:nohup busco -i [输入文件] -l [数据库] -o [输出文件名] -m [genome] --offline >busco_test.log 2>&1 &

实例:nohup busco -i genome/data/genome.fasta -l fungi_odb10 -o busco_output -m genome  --offline >busco_test.log 2>&1 &

等待运行结束即可,可通过log日志查看运行进程。

4. 运行结果文件如下

文件夹logs中可查看运行过程,运行最终结果在short_summary.***.txt中,如下

fungi_odb10】真菌数据库中共有758个BUSCO groups,测序基因组中753(99.3%)个被完整比对上(包括753个单拷贝和0个多拷贝),2个部分比对上,3个完全没有比对上。

通常用 【完整比对数量 / 数据库中的总数量】比例作为BUSCO的重要结果,越高说明基因组组装完整性越好,这里是99.3%=753/758。

5. 绘图

5.1 建议多比对几个数据库,绘图好看。可以从【界】【门】【纲】【目】【科】水平,寻找busco对应数据库(但是不一定每个分类水平都有数据库)。

5.2 将所有结果文件夹中的【short_summary.***.txt】放在一个新的文件夹中【result】。

5.3 运行python "busco/scripts/generate_plot.py" -wd "result"

5.4 【result】文件夹中自动生成【busco_figure.R】文件和绘图结果。

5.5 在R中运行文件【busco_figure.R】,需要安装ggplot2包才能实现绘图。可以对文件中的命令进行修改实现个性化输出。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容