snpEff安装及建库

snpEff安装及使用:

1.安装(推荐这种方法而不是conda)

参考: http://pcingola.github.io/SnpEff/download/

# Download latest version
wget https://snpeff.blob.core.windows.net/versions/snpEff_latest_core.zip

# Unzip file
unzip snpEff_latest_core.zip

2. 配置自己要注释的基因组及注释数据库

参考:http://pcingola.github.io/SnpEff/se_faq/(可以通过 GTF, GFF, RefSeq or GenBank files建库,官方推荐GTF文件,方法最简单)

下载方法:
从下面网址找自己要的基因组:https://ftp.ncbi.nlm.nih.gov/(因为这个下面的文件夹总是变来变去,所以从这个总网站进去自己翻最方便)找refseq再找到物种的fna.gz文件以及gtf.gz文件

我要下载的是肺炎支原体(https://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/Mycoplasma_pneumoniae/latest_assembly_versions/GCF_900660465.1_50648_A01-3/):

  • 建库
    文件夹结构:
    snpEff
    ├── SnpSift.jar
    ├── data
    │ ├── mp2019
    │ │ ├── genes.gff
    │ │ └── snpEffectPredictor.bin #建库成功后会显示
    │ ├── genomes
    │ │ └── mp2019.fa
    ├── examples/
    ├── galaxy/
    ├── scripts/
    ├── snpEff.config
    └── snpEff.jar
# 1.解压改名
mkdir data
cd data
mkdir genomes  #fa文件都放这个文件夹
gzip -d GCF_900660465.1_50648_A01-3_genomic.fna.gz
mv GCF_900660465.1_50648_A01-3_genomic.fna mp2019.fa
cd ..

mkdir mp2019
cd mp2019
gzip -d GCF_900660465.1_50648_A01-3_genomic.gtf.gz
mv GCF_900660465.1_50648_A01-3_genomic.gtf  genes.gtf #必须要这样改!

# 2. 将genome添加到配置文件中
cd  snpEff
vi snpEff.config 
#(shift+g到最后一行进行编辑)
#将以下部分写进去
#---------------------------------------------------------------
# my own databases
# Mycolasma_pneumoniae genome,version mp2019
mp2019.genome : Mycolasma_pneumoniae
# mp2019.chromosomes: NZ_LR214945.1 这一步是为了指定密码子版本(常见的物种比如人不需要加这步)
mp2019.NZ_LR214945.1.codonTable : Mycoplasma

# 3. 建库
java -jar ./snpEff.jar build -gtf22 -v mp2019

不同物种密码子版本请参考
https://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/index.cgi?chapter=tgencodes#SG11

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容