ANNOVAR 注释|自建数据库

ANNOVAR|绵羊基因组变异注释 Gene-based Annotation

ANNOVAR是由王凯老师编写的一款用于SNP等变异位点注释的软件,在注释软件(Annovar, SnpEff, VEP,Oncotator)中相对引用较高。

突变注释工具SnpEff,Annovar,VEP,oncotator比较分析:
https://blog.csdn.net/weixin_34365635/article/details/85980917

annovar自带人类基因组hg18、hg19 、hg38、以及鼠、蠕虫、酵母等的数据库,可能对于临床方向的朋友比较方便,但同时对于研究非人类物种的朋友来讲,需要自行下载物种相应基因组版本的最新注释数据库进行注释。
本文以农场动物--绵羊为例,对分析过程做一记录。

ANNOVAR能够利用最新的数据来分析各种基因组中的遗传变异。主要包含三种不同的注释方法,Gene-based Annotation(基于基因的注释)、Region-based Annotation(基于区域的注释)、Filter-based Annotation(基于筛选的注释)。ANNOVAR由Perl编写。

软件

官网:https://annovar.openbioinformatics.org/en/latest/user-guide/download/
一位朋友下载的annovar.latest(2020年6月8号修改的最新版):https://www.baishujun.com/wp-content/uploads/2020/06/2020061107593651.zip

注册(需使用机构邮箱) -> 网站发送邮件 -> 直接邮件下载(邮件收信需要等待10min左右) -> 解压安装

tar -zxvf annovar.latest.tar.gz
#解压cd进入annovar文件夹之后会看到下图,里面有6个perl脚本程序和两个文件夹。

ANNOVAR
│ annotate_variation.pl #主程序,功能包括下载数据库,三种不同的注释
│ coding_change.pl #可用来推断蛋白质序列
│ convert2annovar.pl #将多种格式转为.avinput的程序
│ retrieve_seq_from_fasta.pl #用于自行建立其他物种的转录本
│ table_annovar.pl #注释程序,可一次性完成三种类型的注释
│ variants_reduction.pl #可用来更灵活地定制过滤注释流程

├─example #存放示例文件

└─humandb #人类注释数据库

1.0 下载基因组文件

通过wget或者其他手段,不再赘述;但是对于注释文件,ensembl中只有1.0和3.0版本,因此我们选择了NCBI。

基因组注释文件(GFF,GTF)下载的四种方法:https://zhuanlan.zhihu.com/p/79631226
绵羊4.0 相关文件下载网站 https://www.ncbi.nlm.nih.gov/assembly/GCA_000298735.2

不管使用什么平台,不管你要注释何种变异类型,用法都大致相似,有几个文件是不可或缺的,其一是基因组文件(fna或者fa文件),其二就是已有的注释信息文件(gff或者gtf文件),然后处理成软件需要的格式即可。关于各文件的信息解读,格式可以查阅NCBI等网络资料。
由于SNP calling、GWAS分析和选择信号扫描等我们所选用的基因组都是以Texel sheep组装的Oar_v4.0参考基因组,因此注释文件也需要针对该版本所作的对应注释文件。

#下载注释gtf文件
##(可选)如果没有gtf文件,可以下载gff文件,之后用cufflink软件包中的gffread软件将gff文件转化为gtf文件
##sudo apt install gffread #gffread用于转化GFF和GTF格式
##gffread -T /path/GCF_000298735.2_Oar_v4.0_genomic.gff -o /path/Sheep_ref.gtf

# 下载基因组序列文件 *.fa

#解压
gunzip /path/Sheep.gtf.gz
gunzip /path/Sheep.dna.genome.fa.gz

##ANNOVAR建库需要genePred文件,因而需要转换gff到genePred格式
### 下载安装 gtfToGenePred 工具
wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64.v369/gtfToGenePred
mkdir -p $PREFIX/bin
cp gtfToGenePred $PREFIX/bin
chmod +x $PREFIX/bin/gtfToGenePred 

###以上下载怕麻烦推荐 #conda install gffread #conda install ucsc-gtftogenepred

# 用 gtfToGenePred 工具将 GTF转换 GenePred
gtfToGenePred -genePredExt /path/Sheep.gtf /path/Sheep_refGene.txt

# cp gtfToGenePred $PREFIX/bin
# 如果报错cp: cannot create regular file ‘/bin/gtfToGenePred’: Permission denied
# 更改为cp gtfToGenePred ~/$PREFIX/bin

####使用retrieve_seq_from_fasta.pl 转换为FASTA 
perl /path/retrieve_seq_from_fasta.pl --format refGene --seqfile /path/Sheep.fna /path/Sheep_refGene.txt --out /path/Sheep_refGeneMrna.fa
# -format指定gene definition file格式
# -seqfile 指定基因组序列文件名称
# -outfile 指定输出mRNA序列文件的名称

以上,基于基因注释所需要的注释数据库文件已经准备完成(建库完成),获得两个重要的文件sheep_refGene.txt & SheeprefGeneMrna.fa,这里需要注意的是:关于文件的命名,_前缀就是下面build参数使用的名字,这里就是Sheep,下面注释就要使用“-build Sheep”这个参数,对于基于基因注释的txt文件命名就是refGene,连起来就是 Sheep_refGene.txt。而fa文件前缀一样,后面有稍稍差别为refGeneMrna,连起来就是Sheep_refGeneMrna.fa。


图片.png

2.0 VCF文件转换为annovar适用版本

关于转换过程中信息的保留等可查看官方文档:https://annovar.openbioinformatics.org/en/latest/user-guide/gene/

perl /path/convert2annovar.pl -format vcf4old /path/All_SNP.recode.vcf -outfile /path/Sheep.avinput

# 关于-format vcf4,我最初也是使用这个命令,但是并没有保留全部位点,查看日志文件才发现【2021.01】:
#WARNING to old ANNOVAR users: this program no longer does line-to-line conversion for multi-sample VCF files. If you want to include all variants in output, use '-format vcf4old' or use '-format vcf4 -allsample -withfreq' instead.

3.0 annotate_variation注释

perl /path/annotate_variation.pl -out /path/Sheep -buildver Sheep /path/Sheep.avinput /path/annovar/Sheepdb/

# -geneanno  表示使用基于基因的注释 一般是默认的
# -dbtype refGene  表示使用"refGene"类型的数据库
# -out /path/Sheep  表示输出以Sheep为前缀的结果文件

4.0 一些结果说明

https://www.jianshu.com/p/1e8db49a630c
Kai Wang, Mingyao Li, Hakon Hakonarson, ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data, Nucleic Acids Research, Volume 38, Issue 16, 1 September 2010, Page e164, https://doi.org/10.1093/nar/gkq603
cosmopolitan:ANNOVAR-注释软件用法详解
【原创文章】用ANNOVAR自建数据库注释辣椒高通量序列 - 百蔬君

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354

推荐阅读更多精彩内容