- QUAST是什么
QUAST(Quality Assessment Tool for Genome Assemblies)是基因组质量评估工具,通过计算各种指标来评估基因组的组装,包括N50,L50,GC含量等contig基本信息。
QUAST基于python开发,matplotlib绘图。
QUAST网站
主页:http://quast.sourceforge.net/
github: https://github.com/ablab/quastQUAST安装
下载解压缩即可使用
QUAST会在第一次使用时自动编译所有子部分,因此不需要安装,解压缩即可使用。
wget -c https://github.com/ablab/quast/releases/download/quast_5.1.0rc1/quast-5.1.0rc1.tar.gz
tar -zxvf quast-5.1.0rc1.tar.gz
python quast.py --help
python quast.py --version
#conda安装
conda install -y quast
#Ubuntu 20.04系统上安装
sudo apt-get update && sudo apt-get install -y pkg-config libfreetype6-dev libpng-dev python3-matplotlib
quast.py contigs.fas
quast.py contigs_1.fa contigs_2.fa -r reference.fa -g genome.gff -1 reads1.fastq.gz -2 reads2.fastq.gz -o quast_out -t 12
#说明
contigs.fa是必须提供的,即等待评估组装质量的基因组,可以多个同时评估。
-r reference.fa:参考基因组,可选;提供后有比较基因组的结果。
-g genome.gff:参考基因组的features文件,GFF,BED等格式
-1和-2:PE测序的FASTQ文件,可选
-o quast_out:指定结果输出目录
-t 12:线程
--large:大基因组推荐加上这个参数,相当于-e -m 3000 -i 500 -x -k --k-mer-stats,加上这个参数后运行时间长非常多,因为有-e会做 基因组的基因预测,推荐大基因组使用完整参数-m 3000 -i 500 -x -k来节省时间。
-f:--gene-finding,用GeneMarkS(原核生物)或GeneMark-ES(真核生物)预测基因
-e:即--eukaryote,默认是用GeneMarkS预测原核生物,这个参数指定基因组是真核生物,主要影响基因预测。类似的还有--fungus。还有许多与基因预测相关的参数可选。
--rna-finding:用Barrnap预测ribosomal RNA genes
-b:用BUSCO计算保守的orthologs数量(only on Linux)
-m 500:小于指定长度的contig会被去除,默认是500bp。
-i 65:小于指定长度的alignment会被去除,默认是65bp。
-k:--k-mer-stats,基于k-mer计算质量参数,推荐用于大基因组。
Assembly 2
# contigs (>= 0 bp) 825
# contigs (>= 1000 bp) 822
# contigs (>= 5000 bp) 454
# contigs (>= 10000 bp) 281
# contigs (>= 25000 bp) 117
# contigs (>= 50000 bp) 45
Total length (>= 0 bp) 16876035
Total length (>= 1000 bp) 16874014
Total length (>= 5000 bp) 15903838
Total length (>= 10000 bp) 14662435
Total length (>= 25000 bp) 12116504
Total length (>= 50000 bp) 9596928
# contigs 825
Largest contig 1527663
Total length 16876035
GC (%) 46.78
N50 69632
N90 7817
auN 381421.0501402136
L50 25
L90 341
# N's per 100 kbp 0.59
Reference
https://zhuanlan.zhihu.com/p/540387011