SNP位点注释

基本概念

SNP:单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。

SNP位点注释:顾名思义也就是把SNP位点信息和基因组信息相关联,比如有多少SNP位点落在编码区,这些位点有多大比例是非同义突变。

数据准备

做SNP位点注释需要三样原件,分别是:参考基因组序列文件,参考基因组序GFF注释文件和之前Call好的SNP数据VCF文件。

使用SnpEff注释VCF文件

推荐使用snpEFF来做突变注释[1]。

软件安装:

wget https://snpeff.blob.core.windows.net/versions/snpEff_latest_core.zip
unzip snpEff_latest_core.zip

构建参考数据库

首先,我们需要编辑snpEff文件夹下的snpEff.config, 在# Databases & Genomes后增加一个新的物种信息。

#Databases & Genomes
物种名.genome : 物种名

这里的物种名是物种注释信息的名称,必须要和输入文件名对应。这里在snpEff/data/路径下建一个以你的物种名命名的子文件夹,用来放构建参考数据库所需要的文件。

mkdir -p snpEff/data/物种名

在data/物种名/文件夹下面存放两个文件

参考基因组:sequences.fa.gz:

注释文件,GFF3格式(也可以是GFF2格式):genes.gff.gz

之后就可以用build子命令进行构建参考数据库。

java -jar snpEff.jar build -gff3 -v 物种名

注释:

进入工作路径,比如在自己的文件夹下的snpEff_results文件夹,执行以下命令,即可获得注释文件。

java -jar snpEff.jar ann 物种名 input.vcf.gz > snpeff.vcf

默认情况下snpEff的注释信息会很多,都存放在snpeff.vcf文件中,其实它还是一个vcf格式文件,只是在原来的输出文件基础上增加了一个tag:ANN

我可以将这个vcf格式文件稍微处理下,保留原来的vcf文件的前5列,再加上ANN列形成一个新文件来查看:

perl -alne 'next if $_ =~ /^#/;$F[7] =~ /(ANN=\S+)/;print "$F[1]\t$F[2]\t$F[3]\t$F[4]\t$F[5]\t$1"' snpeff.vcf >snpeff.anntag.vcf

ANN列里的信息包括很多,大致列举几个,具体的内容大家看看官网官方解释

  • Allele :字母表示该突变在目的基因组上的碱基

  • Annotation :由sequence ontology定义的突变类型,第一个突变位点的downstream_gene_variant在SO系统中的定位如下:


    Annotation

    如果变异位点属于多个类型时,多个类型之间用&符号连接。

  • Annotation_Impact :表示snpEFF对这个突变的影响的预测,有4个程度(HIGH, MODERATE, LOW, MODIFIER)


    Annotation_Impact
  • Gene Name :表示该突变所在基因的基因名,如果是这个突变位于intergenic,则使用该突变离的最近的一个基因的名称

  • Gene ID :表示gene id

  • Feature type :表示突变所在区域的类型,比如transcript, motif, miRNA等

  • Feature ID :表示Feature type对应的id

  • Transcript biotype :转录本类型, 通常采用Ensembl数据库的转录本类型

  • Rank / total :只有当变异位点位于基因区域时才有值,会给出变异位点所处的exon/intron的编号和该基因的exon/intron的总数,比如一个突变位点位于基因的第3个exon上,该基因一共有12个exon, 对应的Rank的值为3/12
    当变异位点位于基因区域以外时,该字段的值为空

  • HGVS.c :采用HGVS标准命名的基因水平的变异情况

  • HGVS.p:采用HGVS标准命名的蛋白质水平的变异情况,只有当突变位点位于编码区是才会有值

  • cDNA.pos/cDNA.length:突变位点在cDNA上的位置/cDNA的总长度

  • CDS.pos/CDS.length:突变位点在CDS上的位置/CDS的总长度

  • AA.pos/AA.length:突变位点在氨基酸序列上的位置/氨基酸序列的总长度

  • Distance:变异位点与最近的特征的距离,当变异位点位于基因间区时,会给出与最近的基因之间的距离;当变异位点位于exon区域时,会给出与最近的内含子边界的距离,不同的情况,距离的定义不同。

  • ERRORS/WARNINGS/INFO:对注释结果的可靠程度进行评估,各种取值代表的含义如下图:


    ERRORS/WARNINGS/INFO

我们可以用如下几个参数来简化输出

-no-downstream
-no-upstream
-no-utr
-no-intergenic
-no-intron

比如说我们只关注CDS中的注释信息,不考虑上游、下游、UTR、基因间区等信息

java -jar snpEff.jar ann -no-utr -no-downstream -no-upstream -no-intergenic 物种名 input.vcf.gz > snpeff.vcf

最终除了输出的vcf文件外,我们还会有额外两个文件,记录总结性信息:

  • snpEff_genes.txt: 总结每个基因的突变位点数

  • snpEff_summary.html: 总结突变的类型数,可视化数据

参考:

[1] A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3

SnpEff_manual

使用snpEff对VCF进行注释

SnpEFF注释vcf-笔记

snpEff : 突变位点注释的又一利器

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342