如何从NCBI下载基因组序列和注释文件并统计基因个数

从NCBI下载一个物种的基因组文件。假设我们要下载一个叫做Tetranychus urticae的物种,首先在NCBI上genome中搜索Tetranychus urticae。得到如下截图:


image.png

然后复制genome和gff的下载地址
在xshell中下载,命令如下

wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/239/435/GCF_000239435.1_ASM23943v1/GCF_000239435.1_ASM23943v1_genomic.fna.gz

wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/239/435/GCF_000239435.1_ASM23943v1/GCF_000239435.1_ASM23943v1_genomic.gff.gz

解压:

gunzip GCF_000239435.1_ASM23943v1_genomic.fna.gz

gunzip GCF_000239435.1_ASM23943v1_genomic.gff.gz

查看gff文件

less -S GCF_000239435.1_ASM23943v1_genomic.gff
image.png

可以看出关于基因信息在第三列,统计该物种注释出的基因数目:

cut -f3 GCF_000239435.1_ASM23943v1_genomic.gff|grep  'gene'|grep -v 'pseudogene'|wc -l

***pseudogene并不是我们想要的,因此,在上述命令中我把它去除了。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容