SnpEff软件安装使用

前言

小编最近看到一个文章,该文章从同义突变位点中提取4dtv用来做后续分析,原文见 Genomic Consequences of Long-Term Population Decline in Brown Eared Pheasant ,所以很是好奇是怎么实现的,但文章没有说明怎么实现的,还好通过百度最终找到了破解方法,这里主要参考了大神的博客,博客原链接见从SnpEff注释得到的VCF中过滤4DTV位点

安装环境

(1)java #该软件是Java编写,小编这里用的java-1.8.0
(2)snpEff #上边提到的博主基于该软件编写的提取4DTV脚本
(3)python3以及pysam模块
pysam模块
pip3 install pysam -i https://pypi.tuna.tsinghua.edu.cn/simple
snpEff软件安装
wget  https://nchc.dl.sourceforge.net/project/snpeff/snpEff_v4_5covid19_core.zip
unzip snpEff_v4_5covid19_core.zip #解压安装
cd snpEff ; chmod 755 *jar #进入目录,可以看到两个jar执行程序,分别是SnpSift和snpEff,给执行权限
snpEff软件配置

该软件是一个很强大的软件,自带有很多基因组的数据库,小编在此不再介绍,有兴趣可以上官网查看,SnpEff & SnpSift,小编这里带你怎么根据自己有的基因组和gff3文件搭建该基因组的注释数据库,以从NCBI下载下来的苹果基因组和gff文件为例

mkdir -p data/apple
ascp -i ~/asperaweb_id_dsa.openssh  -QTr -l200m  anonftp@ftp.ncbi.nlm.nih.gov:genomes/all/GCF/002/114/115/GCF_002114115.1_ASM211411v1/GCF_002114115.1_ASM211411v1_genomic.fna.gz ./  #ascp用法见小编关于该工具的博客
ascp -i ~/asperaweb_id_dsa.openssh  -QTr -l200m  anonftp@ftp.ncbi.nlm.nih.gov:genomes/all/GCF/002/114/115/GCF_002114115.1_ASM211411v1/GCF_002114115.1_ASM211411v1_genomic.gff.gz ./

基因组和gff注释文件下载下来后,解压并命名为sequences.fa和genes.gff,这里命名错误后续会报错

cd ../../
vim snpEff.config,修改配置文件,找到Databases & Genomes,修改如下,注意命名需要严格参照小编的来,apple是上边建立在data数据库里的文件名,后缀必须有.genome

# Databases & Genomes
#Malus_domestica
apple.genome    : Malus_domestica
apple.reference : https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/114/115/GCF_002114115.1_ASM211411v1/GCF_002114115.1_ASM211411v1_genomic.fna.gz \     # Genome sequence
                 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/114/115/GCF_002114115.1_ASM211411v1/GCF_002114115.1_ASM211411v1_genomic.gff.gz \     # gff3  

snpEff自由数据库建立

这里需要较长时间,最好是在后台nohup运行,尤其是比较大的基因组

java -jar snpEff.jar build -gff3 -v apple 
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容