使用BUSCO检测基因组组装完整性

BUSCO数据库：https://busco-data.ezlab.org/v4/data/lineages/

1. 下载数据库

根据物种，选择需要作为参考的数据库，建议下载到本地后上传至服务器，直接使用wget命令下载可能会有问题。

2. 解压缩

命令：tar zxf [压缩文件路径] -C [目标路径]

目标路径：~/busco_downloads/lineages

以真菌数据库为例，解压后文件名为【fungi_odb10】，必须解压至默认路径【busco_downloads/lineages】中，不然后续会报错，解压缩后数据库中内容如下：

3. 运行BUSCO程序

3.1 常规运行

常规命令：busco -i [输入文件] -l [数据库] -o [输出文件名] -m [genome]

实例：busco -i genome/data/genome.fasta -l fungi_odb10 -o busco_output -m genome

-i or --in 输入文件，可以核酸、蛋白或转录组的fasta文件

-l or --lineage_dataset 比对的参考数据库，可以是程序中固定的名称【即下载解压后参考数据库的默认名，推荐】

-o or --out 输出文件

-m or --mode 模式：genome, proteins, transcriptome

注：-l 后的参考数据库不能是路径！！！-l 的默认路径是【busco_downloads/lineages】

3.2 运行联网可能会由于网络问题导致运行出错，推荐选择离线运行。

离线运行：busco -i [输入文件] -l [数据库] -o [输出文件名] -m [genome] --offline 【推荐】

实例：busco -i genome/data/genome.fasta -l fungi_odb10 -o busco_output -m genome --offline

3.3 万无一失版本，离线+后台运行

后台运行：nohup busco -i [输入文件] -l [数据库] -o [输出文件名] -m [genome] --offline >busco_test.log 2>&1 &

实例：nohup busco -i genome/data/genome.fasta -l fungi_odb10 -o busco_output -m genome --offline >busco_test.log 2>&1 &

等待运行结束即可，可通过log日志查看运行进程。

4. 运行结果文件如下

文件夹logs中可查看运行过程，运行最终结果在short_summary.***.txt中，如下

【fungi_odb10】真菌数据库中共有758个BUSCO groups，测序基因组中753（99.3%）个被完整比对上（包括753个单拷贝和0个多拷贝），2个部分比对上，3个完全没有比对上。

通常用【完整比对数量 / 数据库中的总数量】比例作为BUSCO的重要结果，越高说明基因组组装完整性越好，这里是99.3%=753/758。

5. 绘图

5.1 建议多比对几个数据库，绘图好看。可以从【界】【门】【纲】【目】【科】水平，寻找busco对应数据库（但是不一定每个分类水平都有数据库）。

5.2 将所有结果文件夹中的【short_summary.***.txt】放在一个新的文件夹中【result】。

5.3 运行python "busco/scripts/generate_plot.py" -wd "result"

5.4 【result】文件夹中自动生成【busco_figure.R】文件和绘图结果。

5.5 在R中运行文件【busco_figure.R】，需要安装ggplot2包才能实现绘图。可以对文件中的命令进行修改实现个性化输出。

最后编辑于：2023.03.09 20:53:55

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。