快速注释已经得到的vcf文件
所需文件
- ref.fa
- gff3文件或者gtf
- vcf文件
简单流程
1.建立一文件夹
mkdir test
2. gff3文件转变格式
gff3ToGenePred.dms gff3 test/test_refGene.txt
gff3ToGenePred.dms软件点击下载
:gff3文件开头必须是##gff-version 3
3. ref.fa转变格式
perl retrieve_seq_from_fasta.pl --format refGene --seqfile genome.fa test/test_refGene.txt
如果文件名称不是test_refGeneMrna.fa,则需要更改名字
4. vcf文件转化为annovar格式
perl ../convert2annovar.pl -includeinfo -allsample -withfreq -format vcf4 $vcf >test.avinput
## 参数
--includeinfo: 输出文件含有特定额外的信息
--allsample: 多样本的vcf,输出多个样本的结果
--withfreq: 输出文件包含频率信息
--format: 输入文件格式
5. 进行注释(仅根据基因)
perl table_annovar.pl YY.avinput test/ --buildver yy --outfile testanno --protocol refGene --operation g
##参数
test: 文件夹
--buildver: 基因组建立的版本
--outfile: 输出文件前缀
--protocol: 逗号分隔的注释流程,代表库的名字
--operation: g(gene),r(region),f(filter)
结果
主要查看以下两个文件
- exonic_variant_function
- variant_function
stop gain(nonsense):最严重,引入一个stop codon(终止密码子),这个蛋白会提前终止,或者这个蛋白无法翻译出来,或者会翻译出来一个截断的一个一个版本