一、文件准备
基因组文件:r498.fa
与基因组对应的注释文件:r498.gff (最好是gtf 格式,后续需要将gff 转化为gtf )
vcf文件:fs32.vcf
二、使用gffread 将 gff 转化为gtf
安装: conda install -c bioconda gffread
使用:gffread my.gff3 -T -o my.gtf
三、用gtfToGenePred工具将gtf或gff3文件转化为reference_refGene.txt (软件来自http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/)
增加权限:chmod +x ./gtfToGenePred
转化:./gtfToGenePred -genePredExt r498.gtf R498_refGene.txt
四、将ref.fa文件转化为SP_refGeneMrna.fa
perl retrieve_seq_from_fasta.pl --format refGene --seqfile r498.fa R498_refGene.txt --out R498_ensGeneMrna.fa
将 R498_ensGeneMrna.fa 和 R498_refGene.txt 移动到r498文件夹中
五、vcf转化为annovar格式
perl convert2annovar.pl -includeinfo -allsample -withfreq -format vcf4 syri.vcf >fs32.sample.avinput
--includeinfo: 输出文件含有特定额外的信息
--allsample: 多样本的vcf,输出多个样本的结果
--withfreq: 输出文件包含频率信息
--format: 输入文件格式
六、进行注释
perl table_annovar.pl fs32.sample.avinput r498/ -buildver R498 -outfile fs32 -protocol refGene -operation g
r498: 含有R498_refGeneMrna.fa和R498_refGene.txt的文件夹
--buildver: 基因组建立的版本6--outfile: 输出文件前缀
--protocol: 逗号分隔的注释流程,代表库的名字
--operation: g(gene),r(region),f(filter)
最终得到 exonic_variant_function和variant_functionwen结果文件