全外显子组测序(WES)分析3: 变异功能注释(SnpEff / VEP )

1. 使用\color{green}{SnpEff}注释 VCF 文件

1.1 下载和安装 SnpEff

# 下载 SnpEff
$ wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip

# 解压
$ unzip snpEff_latest_core.zip

# 进入 SnpEff 目录
$ cd snpEff

1.2 下载参考基因组数据库

$ java -jar snpEff.jar download GRCh38.92
$ unzip snpEff_v4_3_GRCh38.92.zip # 解压

$ vi snpEff.config
# 添加:
# GRCh38.92.genome : Homo_sapiens

1.3 注释 VCF 文件

$ java -jar snpEff.jar ann GRCh38.92 CC56tissueA.markdup.filtered.vcf > CC56tissueA_snpEff_annotated.vcf

1.4 结果解读

注释完成后会生成snpEff_genes.txt文件和snpEff_summary.html文件,记录了注释的摘要信息,并另外生成一个新的vcf文件包含详细注释信息

  1. Summary(摘要信息):
    从上往下依次是:基因组(物种名)、注释日期、snpEff版本、注释命令、警告信息、错误信息、输入文件行数、变异位点数(过滤之前)、非变异位点数(与参考基因组碱基一致)、变异位点数(过滤之后)、具有ID的变异位点数、非双等位基因组SNP位点数、effects个数、参考基因组总长度、参考基因组有效长度、变异率(参考基因组有效长度/变异位点数)


    snpEff-1

2) Variants rate details(各染色体变异率):
从上往下:染色体编号、长度、变异位点数、变异率(多少个碱基中有一个变异位点)

3)Number variants by type(变异类型):
从上往下:SNP(单核苷酸多态性)、MNP(多核苷酸多态性)、INS(插入变异)、DEL(缺失变异)、MIXED(混合变异)、INV(倒位变异)、DUP(重复变异)、BED(易位变异)、INTERVAL(间隔变异)

4) Number of effects by impact(有效影响数量):
从上往下:HIGH(变异对基因或蛋白质功能有严重破坏性影响,比如:移码突变(frameshift)、无义突变(nonsense)、剪接位点变异(splice site variants)等)、LOW(变异对基因或蛋白质功能有轻微影响,比如:同义突变(synonymous),即不改变氨基酸序列的突变)、MODERATE(变异对基因或蛋白质功能有显著但不太严重的影响,比如:错义突变(missense)、非同义突变(nonsynonymous)等)、MODIFIER(变异对基因或蛋白质功能影响未知或极小,比如:位于基因间区的变异(intergenic variants)、下游基因变异(downstream variants)、上游基因变异(upstream variants)等)

5)Number of effects by functional class(功能分级有效数):
从上往下:MiSSENSE(错义突变)、NONSENSE(无义突变)、SILENT(沉默突变)


snpEff-2

6)Number of effects by type and region(有效变异数和百分比):
左边为按类型划分有效变异数,包括(从上往下):3’端主要UTR变异(UTR是成熟mRNA分子5'或3'端不被翻译的部分,一般在mRNA转运、稳定性和翻译调节中起重要作用)、5’端主要UTR提前启动子获得变异、5’端主要UTR变异、下游基因变异、起始密码子编码变异、基因间隔区、内含子变异、剪接受体变异、剪接供体变异、剪接区域变异、起始缺失、起始保留变异、终止获得、终止缺失、终止保留变异、同义变异、上游基因变异。
右边为按区域划分有效变异数,包括(从上往下):下游、外显子、间隔区、内含子、剪接位点受体、剪接位点供体、剪接位点区域、上游、3’UTR区、5’UTR区

snpEff-3

7) Base changes (SNPs)(SNP位点碱基变异表):
可以看出SNP中哪些碱基的转换比较多(A腺嘌呤、C胞嘧啶、G鸟嘌呤、T胸腺嘧啶)

8)Ts/Tv (transitions / transversions)(转换/颠换):
显示转换/颠换的比例和数量,以及不同类型的转换/颠换的数量和百分比。转换是指嘌呤与嘌呤或嘧啶与嘧啶之间的替代,颠换是指嘌呤与嘧啶之间的替代


snpEff-4

2. 使用\color{green}{VEP}注释 VCF 文件

2.1 下载和安装 VEP

# 下载 VEP
$ wget https://github.com/Ensembl/ensembl-vep/archive/refs/tags/release/112.0.tar.gz

$ tar -zxf ensembl-vep-release-112.0.tar.gz
$ cd ensembl-vep-release-112.0

# 安装依赖
$ sudo apt-get update
$ sudo apt-get install -y perl build-essential libdbi-perl libdbd-mysql-perl libmysqlclient-dev cpanminus

# 安装 HTSlib 及其 Perl 绑定(HTSlib 是 VEP 处理 VCF 文件时所需的库)
$ sudo apt-get install -y libhts-dev libhts2
$ sudo cpanm Bio::DB::HTS

$ ./vep # 检测是否安装成功
## 
## #----------------------------------#
## # ENSEMBL VARIANT EFFECT PREDICTOR #
## #----------------------------------#
## 
## Versions:
##   ensembl              : 112.3add379
##   ensembl-funcgen      : 112.be19ffa
##   ensembl-io           : 112.2851b6f
##   ensembl-variation    : 112.4113356
##   ensembl-vep          : 112.0
## 
## Help: dev@ensembl.org , helpdesk@ensembl.org
## Twitter: @ensembl
## 
## http://www.ensembl.org/info/docs/tools/vep/script/index.html
## 
## Usage:
## ./vep [--cache|--offline|--database] [arguments]
## 
## Basic options
## =============
## 
## --help                 Display this message and quit
## 
## -i | --input_file      Input file
## -o | --output_file     Output file
## --force_overwrite      Force overwriting of output file
## --species [species]    Species to use [default: "human"]
## 
## --everything           Shortcut switch to turn on commonly used options. See web
##                        documentation for details [default: off]
## --fork [num_forks]     Use forking to improve script runtime
## 
## For full option documentation see:
## http://www.ensembl.org/info/docs/tools/vep/script/vep_options.html
## 

2.2 下载所需的参考数据

$ perl INSTALL.pl -a cf -s homo_sapiens -y GRCh38 # 下载速度缓慢

# 或手动下载(也慢)
$ wget  http://ftp.ensembl.org/pub/release-112/variation/vep/homo_sapiens_vep_112_GRCh38.tar.gz
$ wget https://ftp.ensembl.org/pub/release-112/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

$ tar -xvzf homo_sapiens_vep_112_GRCh38.tar.gz # 解压
$ gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

$ samtools faidx Homo_sapiens.GRCh38.dna.primary_assembly.fa # 建立索引

2.3 注释 VCF 文件

$ ./vep -i CC56tissueA.markdup.filtered.vcf --fork 4 -o CC56tissueA_VEP_annotated.vcf --assembly GRCh38 --cache --dir_cache /data/shumin/software/ensembl-vep-release-112.0/vep_cache --assembly GRCh38 --offline --fasta /data/shumin/software/ensembl-vep-release-112.0/vep_cache/Homo_sapiens.GRCh38.dna.primary_assembly.fa --vcf

2.4 结果解读

注释完成后同样会生成“CC56tissueA_VEP_annotated.vcf_summary.html”文件,记录注释信息

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容