用QUAST评估基因组组装

  1. QUAST是什么

QUAST(Quality Assessment Tool for Genome Assemblies)是基因组质量评估工具,通过计算各种指标来评估基因组的组装,包括N50,L50,GC含量等contig基本信息。
QUAST基于python开发,matplotlib绘图。

  1. QUAST网站
    主页:http://quast.sourceforge.net/
    github: https://github.com/ablab/quast

  2. QUAST安装
    下载解压缩即可使用
    QUAST会在第一次使用时自动编译所有子部分,因此不需要安装,解压缩即可使用。

wget -c https://github.com/ablab/quast/releases/download/quast_5.1.0rc1/quast-5.1.0rc1.tar.gz
tar -zxvf quast-5.1.0rc1.tar.gz
python quast.py --help
python quast.py --version
#conda安装
conda install -y quast

#Ubuntu 20.04系统上安装 
sudo apt-get update && sudo apt-get install -y pkg-config libfreetype6-dev libpng-dev python3-matplotlib
quast.py contigs.fas

quast.py contigs_1.fa contigs_2.fa -r reference.fa -g genome.gff -1 reads1.fastq.gz -2 reads2.fastq.gz -o quast_out -t 12
  #说明
  contigs.fa是必须提供的,即等待评估组装质量的基因组,可以多个同时评估。
  -r reference.fa:参考基因组,可选;提供后有比较基因组的结果。
  -g genome.gff:参考基因组的features文件,GFF,BED等格式
  -1和-2:PE测序的FASTQ文件,可选
  -o quast_out:指定结果输出目录
  -t 12:线程
  --large:大基因组推荐加上这个参数,相当于-e -m 3000 -i 500 -x -k --k-mer-stats,加上这个参数后运行时间长非常多,因为有-e会做    基因组的基因预测,推荐大基因组使用完整参数-m 3000 -i 500 -x -k来节省时间。
  -f:--gene-finding,用GeneMarkS(原核生物)或GeneMark-ES(真核生物)预测基因
  -e:即--eukaryote,默认是用GeneMarkS预测原核生物,这个参数指定基因组是真核生物,主要影响基因预测。类似的还有--fungus。还有许多与基因预测相关的参数可选。
  --rna-finding:用Barrnap预测ribosomal RNA genes
  -b:用BUSCO计算保守的orthologs数量(only on Linux)
  -m 500:小于指定长度的contig会被去除,默认是500bp。
  -i 65:小于指定长度的alignment会被去除,默认是65bp。
  -k:--k-mer-stats,基于k-mer计算质量参数,推荐用于大基因组。

Assembly                    2                
# contigs (>= 0 bp)         825              
# contigs (>= 1000 bp)      822              
# contigs (>= 5000 bp)      454              
# contigs (>= 10000 bp)     281              
# contigs (>= 25000 bp)     117              
# contigs (>= 50000 bp)     45               
Total length (>= 0 bp)      16876035         
Total length (>= 1000 bp)   16874014         
Total length (>= 5000 bp)   15903838         
Total length (>= 10000 bp)  14662435         
Total length (>= 25000 bp)  12116504         
Total length (>= 50000 bp)  9596928          
# contigs                   825              
Largest contig              1527663          
Total length                16876035         
GC (%)                      46.78            
N50                         69632            
N90                         7817             
auN                         381421.0501402136
L50                         25               
L90                         341              
# N's per 100 kbp           0.59 

Reference
https://zhuanlan.zhihu.com/p/540387011

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容