软件说明
Ensembl VEP是一款突变注释文件,但是相关的配置比较困难。这次我们使用conda进行安装,可以跳过繁琐的环境配置过程。
http://asia.ensembl.org/info/docs/tools/vep/script/vep_download.html
通过conda安装VEP
这里我们使用conda安装VEP软件,具体的conda的用法可以参考我的往期的conda的用法说明(https://www.jianshu.com/p/e82a8d799b13)。
- 设置新的conda环境,VEP依赖的perl语言环境复杂,新建一个新的conda环境,并激活环境
conda create -n vep
conda activate vep
- 安装VEP,在conda中搜索ensembl-vep,并选择合适的版本安装
conda search ensembl-vep
conda install ensembl-vep
配置VEP的程序
安装完成后,还需要配置相关的文件。其中默认的VEP的文件主要存储在 ~/.vep的目录下。这里我们配置GRCh37的文件
- 配置缓冲文件(caches: https://asia.ensembl.org/info/docs/tools/vep/script/vep_cache.html)。VEP推荐下载缓冲文件进行注释。
-- Indexed cache (ftp://ftp.ensembl.org/pub/release-101/variation/indexed_vep_cache/)
cd $HOME/.vep
wget -c ftp://ftp.ensembl.org/pub/release-101/variation/indexed_vep_cache/homo_sapiens_vep_101_GRCh37.tar.gz
tar xzf homo_sapiens_vep_101_GRCh37.tar.gz
--Non-indexed cache (ftp://ftp.ensembl.org/pub/release-101/variation/vep/),
cd $HOME/.vep
ftp://ftp.ensembl.org/pub/release-101/variation/vep/homo_sapiens_refseq_vep_101_GRCh37.tar.gz
tar xzf homo_sapiens_vep_101_GRCh37.tar.gz
注意:When using Ensembl Genomes caches, you should use the --cache_version option to specify the relevant Ensembl Genomes version number as these differ from the concurrent Ensembl/VEP version numbers。 在后面的运行中需要指定cache的下载版本,本实例文件的版本是101。
- 配置基因组序列文件。
Suitable reference FASTA files are available to download from the Ensembl FTP server. See the Downloads page for details.
cd $HOME/.vep
mkdir homo_sapiens
mkdir 101_GRCh37
cd homo_sapiens/101_GRCh37
wget -c ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
gzip -d Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
bgzip Homo_sapiens.GRCh37.dna.primary_assembly.fa
实例运行
VEP涉及的参数很多,可以参考一下的网站 https://asia.ensembl.org/info/docs/tools/vep/script/vep_options.html。
- 下载vep的安装包
git clone https://github.com/Ensembl/ensembl-vep
cd ensembl-vep
- 运行其中的实例文件
cd examples
vep -i homo_sapiens_GRCh37.vcf --fork 4 -o homo_sapiens_GRCh37.out.vcf --assembly GRCh37 --cache --cache_version 101 --dir ~/.vep/ --offline --refseq --fasta~/.vep/homo_sapiens/101_GRCh37/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz --force_overwrite
- 查看结果文件。当看到以下2个文件时,说明运行成功。