文章仅是记录自己的学习使用,有错误请指出,我立刻改正!
官方说明:
https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2.1.5-to-v2.1.8#v218
更多说明:
http://www.chenlianfu.com/?p=2804
https://developer.aliyun.com/article/675869
https://www.jianshu.com/p/0eb67d83b603
https://cloud.tencent.com/developer/article/1688675
数据库说明:
https://www.jianshu.com/p/e5f617b7c9e1
https://www.cnblogs.com/jessepeng/p/12753721.html
一、EggNOG数据库简介
- EggNOG数据库全称是:直系同源蛋白分组比对(evolutionary genealogy of genes: Non-supervised Orthologous Groups)数据库,由EMBL创建维护,是对NCBI的COG数据库进行拓展,提供不同分类水平蛋白的直系同源分组(Orthologous Groups,OG),包括真核、原核及病毒的数据信息。它扩展了COG数据库的分类方法,采用无监督聚类算法在全基因组范围内推导基因功能,更适用于谱系特征基因的分析。
- 最新的数据库为EggNOG5.0
- eggNOG 5.0的完整下载数据地址:http://eggnog5.embl.de/download/eggnog_5.0/
(一)主页面介绍
1、e5.proteomes.faa为所有的蛋白组序列
2、e5.viruses.faa为所有的病毒蛋白序列
3、e5.taxid_info.tsv为Taxid对应的物种名称以及完整的谱系信息
4、e5.og_annotations.tsv为所有的NOG信息(第一列为Taxid,第二列为NOG groups,第三列为COG归属,第四列为Function)
(二)物种注释信息
1、TaxID版本
http://eggnog5.embl.de/download/eggnog_5.0/per_tax_level/
2、物种名版本
http://eggnog5.embl.de/#/app/downloads
(三)emapperdb-5.0.2数据库
网页位置 http://eggnog5.embl.de/download/emapperdb-5.0.2/
- 当download_eggnog_data.py无法下载时可以选择网页下载
二、NOG、KOG和COG数据库
- NOG、KOG、COG,三者都是同源分类数据库,即都是OG(Orthologous Groups)。
1、COG:Clusters of Orthologous Groups of proteins,即同源蛋白簇,是NCBI的一个数据库。根据生物完整基因组的编码蛋白系统进化关系分类构建而成,每一簇COG由直系同源序列构成,从而可以推测该序列的功能,按功能共可以分为二十六类。
2、KOG:EuKaryotic Orthologous Groups。广义上COG分为真核和原核生物两类,原核的一般称为COG数据库,真核的一般称为KOG数据库。
3、NOG:Non-supervised Orthologous Groups,注意是非监督,因COG未及时更新,EMBL EggNOG对COG进行了完善,极大拓展了基因组信息,主要是基于HMM分析提供更细致的OG分析。
三、EggNOG-mapper的使用
##安装eggnog-mapper##
conda create -n eggnog
source activate eggnog
conda install -c bioconda eggnog-mapper
##下载数据库##
download_eggnog_data.py --data_dir ./eggnog5.0.0
#不添加--data_dir选项,会将文件下载到eggnog-mapper 目录中的data目录
#在最新版本中,因为只使用了 Diamond ,只有一个数据库。因此,参数euk,bact,arch,viruses数据库都无法被识别无法识别,因为没有被使用。
#下载的数据中应包括eggnog.db.gz(功能注释数据库,用于根据比对结果进行功能注释)、eggnog_proteins.dmnd.gz(所有蛋白序列的DIMOND数据库,用于DIMOND快速序列比对)、eggnog.taxa.tar.gz
#-P:下载 PFAM 数据库所必需的。
#-M:下载 MMseqs2 数据库所必需的。整个 MMseqs2 数据库包括不属于任何 eggNOG Orthologous Group (OG) 的 eggNOG 蛋白质,而 Diamond 数据库仅包括属于 OG 的蛋白质。
##使用create_dbs.py仅创建细菌子数据库##
create_dbs.py -m diamond --dbname bacteria --taxa Bacteria
##wget下载##
wget http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog_proteins.dmnd.gz
wget http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog.db.gz
#用脚本下不了,太卡了,直接网页下载
##进行比对注释##
python ~/eggnog/bin/emapper.py \
-m diamond -i virus.fasta --itype CDS --translate --cpu 20 \
--data_dir /eggnog5.0.0/ \
--dmnd_db /eggnog5.0.0/eggnog_proteins.dmnd \
--output_dir /outdir -o virus
#比对注释
#-o:设置输出文件前缀
#--output_dir:设置输出文件夹
#-m:设置比对算法,(默认值:diamond){diamond,mmseqs,hmmer,no_search,cache}
#-i:输入查询序列(蛋白质)的FASTA文件
#--itype:输入(-i)文件中的数据类型。(默认值:proteins){CDS,proteins,genome,metagenome}
#--translate:当--itype输入CDS,在搜索之前将CDS翻译成蛋白质。当--itype genome/metagenome和--genepred搜索时,将blastx命中的预测CDS翻译成蛋白质。(默认值:False)
#--data_dir:eggnog mapper数据库的路径。默认情况下,“data/”
#--dmnd_db:当使用DIAMOND算法时,设置DIAMOND数据库路径
#--sensmode:Diamond的灵敏度模式。emapper的默认值是sensitive与diamond的默认值不同。 {default,fast,mid-sensitive,sensitive,more-sensitive,very-sensitive,ultra-sensitive}
#--no_annot:Skip functional annotation, reporting only hits.(default: False)
- 更具体的参数可查看emapper.py -h或http://www.chenlianfu.com/?p=2804
四、结果解读:
eggnog-mapper会生成三个文件:
- .hits: 记录每个用于query序列对应的所有的显著性的eggNOG Orthologous Groups(OG). 所有标记为"-"则表明该序列未找到可能的OG
- .seed_orthologs: 记录每个用于搜索序列对的的最佳的OG,也就是.hits里选择得分最高的结果。之后会从eggNOG中提取更精细的直系同源关系(orthology relationships)
- .annotations: 该文件提供了最终的注释结果。大部分需要的内容都可以通过写脚本从从提取,一共有13列
.annotations每一列对应的记录如下:
1、query_name: 检索的基因名或者其他ID
2、sedd_eggNOG_ortholog: eggNOG中最佳的蛋白匹配
3、seed_orholog_evalue: 最佳匹配的e-value
4、seed_ortolog_evalu: 最佳匹配的bit-score
5、predicted_gene_name: 预测的基因名,特别指的是类似AP2有一定含义的基因名,而不是AT2G17950这类编号
6、GO_term: 推测的GO的词条, 未必最新
7、KEGG_KO: 推测的KEGG KO词条, 未必最新
8、BiGG_Reactions: BiGG代谢反应的预测结果
9、Annotation_tax_scope: 对该序列在分类范围的注释
10、Matching_OGs: 匹配的eggNOG Orthologous Groups
11、best_OG|evalue|score: 最佳匹配的OG(HMM模式才有)
12、COG functional categories: 从最佳匹配的OG中推测出的COG功能分类
13、eggNOG_HMM_model_annotation: 从最佳匹配的OG中推测出eggNOG功能描述