SnpEff 配置基因组注释文件

SnpEff 软件提供了绝大多数物种的基因组注释信息,但随着基因组版本的不断更新和新的更好的基因组的出现,我们有时需要将新的参考基因组注释信息添加到其本地数据集中,本文是我再田间籼稻材料蜀恢498(R498)基因组注释信息的具体步骤,记录下来,以供查阅。

1. 注释文件为 gff3 格式

参考基因组:Oryza Sativa R498
基因组序列文件:R498_Final_Version2.fasta
gff3 注释文件:R498_IGDBv3_coreset.gff

(1)首先要修改 snpEff 目录下的注释文件 snpEff.config,在“Third party databases”行下加入如下内容:

# Rice genome, version R498
R498.genome : Rice

(2)在 snpEff 目录下,创建目录 data, data/R498, data/genomes

mkdir data && cd data
mkdir R498
mkdir genomes

(3)将 gff3 (R498_IGDBv3_coreset.gff) 文件放入R498目录下,并改名为 genes.gff;将基因组序列文件(R498_Final_Version2.fasta)放入 genomes 目录下,并改名为 R498.fa

(4)在 snpEff 目录下,执行命令:

java -jar snpEff.jar build -gff3 -v R498

2. 注释文件为 gtf 格式

如果注释文件为R498.gtf,可参考 gff3 中的步骤,要将注释文件重新命名为 genes.gtf

执行命令更改为:

java -jar snpEff.jar build -gtf22 -v R498
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容