kegg genes 数据库收录了物种的基因信息。 kegg 使用自己定义的ID 唯一区别每个基因,叫做kegg gene ID。
对于每个基因,除了给出对应的物种,染色体位置,ncbi-gene ID,DNA 序列, 蛋白序列等基本信息以外,还会给出这个基因对应的KO, module, pathway 等注释信息。
其中KO 注释是核心,kegg 提供了两种工具,用于基因的KO 注释
对于单个物种的基因组,使用BlastKOALA 工具;
对于环境微生物,使用GhostKOALA 工具进行注释;
截止到2018年3月7号,所有基因的注释情况如下:
http://www.kegg.jp/kegg/docs/genes_statistics.html
基因从功能上分成了两大类,编码蛋白基因和非编码蛋白基因。从注释信息的角度,提供了KO , pathway, Enzyme 共3种kegg 的注释。
我们来想详细看下human 基因的注释情况
目前共收录了20380个蛋白编码基因,其中13226 个基因有KO 注释;19172 个非编码基因,其中 315个有KO 注释;有pathway 注释的只有 7376 个基因,而有Enzyme 酶类注释的只有3261 个基因。其中pathway 相关基因只有7376个,这个数字值得我们重点关注。
对于转录组分析而言,KEGG的富集分析是常用的功能分析手段,而20380个蛋白编码基因中,只有30%左右的基因有pathway 信息,剩下的没有pathway 相关信息的基因,在富集分析时 ,会被忽略掉了。所以pathway 富集分析还是有一定的局限性的。
这里我列出了人,小鼠,大鼠基因的pathway 注释情况
org | protein | pathway |
---|---|---|
hsa | 20,380 | 7376 |
mmu | 22,103 | 8197 |
rno | 23,503 | 8436 |
总体来看,有pathway注释信息的基因比例都很低。pathway 是基于我们已有的认知来构建的 ,随着研究的不断深入和进行,pathway 数据库也会越来越大, 也会有更多的基因有pathway 相关的信息。现阶段,由于我们对基因功能认知的局限,只能对那些有pathway 信息的基因去研究。所以在富集分析时,我们需要综合多个数据库的结果, 比如 GO, Reatcome 等数据库。
总结:
kegg genes 数据库收录了基因的信息,包括了编码基因和非编码基因。
对于单基因组,采用BlastKOALA 进行KO 注释;对于宏基因组,采用GhostKOALA 进行注释。
由于我们现阶段对基因功能认知的局限性,有pathway注释信息的基因比例较低,在进行功能富集分析时,建议综合多个数据库的结果。