将原始fq文件通过FastQC-align-samtools||GATK等流程最终得到vcf文件,也就是记录某些位点变异的文本文件。但只是通过看vcf文件我们是不知道些变异位点到底是位于基因的exon、intron、UTR等的哪些区域的。所以我们需要对vcf文件也就是这些变异位点进行注释。最常用的vcf注释软件有annovar和snpEff。
本文将介绍如何用annovar软件对vcf文件进行注释。
- 准备的输入文件
- reference.fa
- reference.gtf或gff3文件
- sample.vcf
- 用gff3ToGenePred与gtfToGenePred工具将gtf或gff3文件转化为reference_refGene.txt
gtfToGenePred -genePredExt reference.gtf reference_refGene.txt
- 将reference.fa文件转化为reference_refGeneMrna.fa
perl retrieve_seq_from_fasta.pl --format refGene --seqfile reference.fa all_refGene.txt --out reference_refGeneMrna.fa
- 再将vcf文件转化为annovar格式
perl ~/biosoft/annovar/convert2annovar.pl -format vcf4 sample.vcf > sample.annovar
- 用table_annovar.pl进行注释(可一次性完成三种类型的注释)
perl ~/biosoft/annovar/annotate_variation.pl -buildver reference -geneanno -outfile sample.anno sample.annovar ~/biosoft/annovar/referencedb/
最终得到两个注释文件文件和一个log文件exonic_variant_function和variant_function
参考:https://zhengzexin.com/2016/04/28/annovar-zhu-shi-ruan-jian/