snpEff安装及使用:
1.安装(推荐这种方法而不是conda)
参考: http://pcingola.github.io/SnpEff/download/
# Download latest version
wget https://snpeff.blob.core.windows.net/versions/snpEff_latest_core.zip
# Unzip file
unzip snpEff_latest_core.zip
2. 配置自己要注释的基因组及注释数据库
参考:http://pcingola.github.io/SnpEff/se_faq/(可以通过 GTF, GFF, RefSeq or GenBank files建库,官方推荐GTF文件,方法最简单)
下载方法:
从下面网址找自己要的基因组:https://ftp.ncbi.nlm.nih.gov/(因为这个下面的文件夹总是变来变去,所以从这个总网站进去自己翻最方便)找refseq再找到物种的fna.gz文件以及gtf.gz文件
- 建库
文件夹结构:
snpEff
├── SnpSift.jar
├── data
│ ├── mp2019
│ │ ├── genes.gff
│ │ └── snpEffectPredictor.bin #建库成功后会显示
│ ├── genomes
│ │ └── mp2019.fa
├── examples/
├── galaxy/
├── scripts/
├── snpEff.config
└── snpEff.jar
# 1.解压改名
mkdir data
cd data
mkdir genomes #fa文件都放这个文件夹
gzip -d GCF_900660465.1_50648_A01-3_genomic.fna.gz
mv GCF_900660465.1_50648_A01-3_genomic.fna mp2019.fa
cd ..
mkdir mp2019
cd mp2019
gzip -d GCF_900660465.1_50648_A01-3_genomic.gtf.gz
mv GCF_900660465.1_50648_A01-3_genomic.gtf genes.gtf #必须要这样改!
# 2. 将genome添加到配置文件中
cd snpEff
vi snpEff.config
#(shift+g到最后一行进行编辑)
#将以下部分写进去
#---------------------------------------------------------------
# my own databases
# Mycolasma_pneumoniae genome,version mp2019
mp2019.genome : Mycolasma_pneumoniae
# mp2019.chromosomes: NZ_LR214945.1 这一步是为了指定密码子版本(常见的物种比如人不需要加这步)
mp2019.NZ_LR214945.1.codonTable : Mycoplasma
# 3. 建库
java -jar ./snpEff.jar build -gtf22 -v mp2019
不同物种密码子版本请参考:
https://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/index.cgi?chapter=tgencodes#SG11