如何获取GO和KEGG注释、描述信息

在非模式生物中,我们想要获取相应物种的GO或KEGG注释信息,或者描述信息的渠道很少。数据分布不集中,需要我们花费很长时间去收集,整合,才能得到相应的信息去做功能富集分析。下面以小麦为例,我们如何去收集功能富集前的准备工作。

一、功能注释

对一些未知功能的序列做初步的功能注释,通常的方法就是先下载一些功能数据库(NR、NT、uniprot、GO、KEGG),然后将序列进行比对,从而预测功能。但是这些数据库通常比较庞大,下载慢,处理起来也比较复杂。因此,我们一般采用在线做功能注释。有些网站例如eggNOG-MAPPERPANNZERg:Profiler等。我认为在线功能注释网站中比较快的是eggNOG-MAPPER,PANNZER专注做功能注释约有10年了,也是比较专业的,大家也可以多在几个网站中做,然后比较一下结果。取自己想要的,合适的结果。

下面就以eggNOG-MAPPER网站为例,做以下序列的功能注释:

示例数据取自小麦中国春v2.1版本的高可信蛋白序列。一般我们以蛋白序列作为功能注释的输入文件,示例文件名:Example_pep.fa


image.png

image.png

上面为填写后的网页,我一般采用默认参数,然后提交。在邮箱中会看到下面界面。


image.png

点击后会转到下面界面
image.png

开始后只需等待就可以啦
image.png

当运行完成之后会给你邮箱发送一个任务完成邮件。
任务完成啦,然后下载结果。


image.png

一般下载 out.emapper.annotations和out.emapper.annotations.xlsx两个结果就够了,其中out.emapper.annotations为后面处理数据的输入文件。
image.png

我们来看一下结果文件里面有什么内容
image.png

文件内容这么乱,想得到我们需要的输入文件,还需要进行进一步整理,下面就使用TBtools软件进行整理,确实很方便。使用GO&KEGG模块里面的eggNOG-mappper Helper功能进行处理。
image.png

输入文件为out.emapper文件
image.png

在目录下就会产生每个功能注释库所对应的蛋白质ID
image.png

out.emapper.annotations.GO文件里,有GO与蛋白质ID对应关系,这样我们就初步得到我们所需要的文件啦。


image.png

image.png

image.png

对于out.emapper.annotations.KEGG_Pathway文件中,我们可以用以下命令简单处理:
grep map out.emapper.annotations.KEGG_Pathway.txt > out.emapper.annotations.KEGG_map.tx
grep ko out.emapper.annotations.KEGG_Pathway.txt > out.emapper.annotations.KEGG_ko.txt

这样我们就能提取出只有map号和KO号的文件啦。


image.png

image.png

到此我们前景基因的功能注释就完成啦。

二、获取该物种所对应的GO、KEGG注释

获取物种与GO号所对应的关系的方法有以下几种方式:

1、通过GO官网进行下载http://current.geneontology.org/annotations/index.html或者http://current.geneontology.org/products/pages/downloads.html下载对应物种的注释信息。很可惜,官网里面并没有小麦的注释信息。

2、 从COA项目中下载ftp://ftp.ebi.ac.uk/pub/databases/GO/goa/,但是也没有小麦的注释信息。

image.png

3、从NCBI中下载数据ftp.ncbi.nih.gov
image.png

下载gene2go.gz文件,打开后根据Tax id进行筛选,小麦的Tax id是4565,很可惜也没有。
4、从Bioconductor 获取,虽然AnnotationHub包提供了常见物种的注释信息,却没有小麦的注释信息。
5、将小麦参考基因组蛋白质序列与uniprot蛋白质库进行blast,然后得到GO号。由于uniprot库下载速度慢,并且比较大,耗时耗力。我采用的是下面的方法得到背景基因。
6、将参考蛋白质序列在eggNOG-mapper在线网站进行比对,然后对比对结果进行处理,这样就能得到GO号以及KEGG的K num、map号、ko号等等。
image.png

三、GO、KEGG描述信息

GO描述信息可以在http://current.geneontology.org/ontology/go-basic.obo得到,是所有物种的描述信息,不影响做GO富集分析。进入下面页面后右击点击另存为,保存文件。然后提取文件中信息即可得到简化的描述信息。

image.png

使用下面python进行处理一下:

with open("go-basic.obo","r") as file:
    lib={}
    for line in file:
        line=line.strip()
        col_name=line.split(":")[0]
        if col_name == "id":
            id=line.split(" ",maxsplit=1)[1]
            lib[id]=""
        if col_name == "name":
            name=line.split(" ",maxsplit=1)[1]
            lib[id]=lib[id]+"@"+name
        if col_name == "namespace":
            namespace=line.split(" ",maxsplit=1)[1]
            lib[id]=lib[id]+"@"+namespace
out=open("GO_basic_Description.txt","a+")
out.write("Class"+"\t"+"GO_IDs"+"\t"+"Description"+"\n")
for key in lib.keys():
    go_id=key
    go_name=lib[key].split("@")[1]
    go_namespace=lib[key].split("@")[2]
    if go_namespace == "molecular_function":
        go_namespace="MF"
        out.write(go_namespace+"\t"+go_id+"\t"+go_name+"\n")
    if go_namespace == "biological_process":
        go_namespace="BP"
        out.write(go_namespace+"\t"+go_id+"\t"+go_name+"\n")
    if go_namespace == "cellular_component":
        go_namespace="CC"
        out.write(go_namespace+"\t"+go_id+"\t"+go_name+"\n")

得到下面的文件 GO_basic_Description.txt:

image.png

KEGG描述信息同样也可以在KEGG官网中得到。参考网址https://www.kegg.jp/kegg/catalog/org_list.html
image.png

然后找到小麦(Triticumaestivum)缩写为taes。点击raes进入小麦专栏
image.png

点击Brite hierarchy
image.png

然后在点击KEGG Orthology
image.png

然后在download栏中选择一种格式进行下载
image.png

json格式
image.png

KEG格式
image.png

发现上面两个格式不是我们想要的,还需要进行处理,显得有点麻烦。
下面推荐一种较为简便的方式,使用R包“KEGGREST”,这个包就比较简便,人性化。
下面代码就是提取相应的信息。只需要修改输出文件路径即可。

#获取KEGG数据库信息
#加载包
library(KEGGREST)
##查看KEGG数据库包含的数据
listDatabases()#
##获取pathway(所有物种)数据集中的数据
pathway<- keggList("pathway")
head(pathway)
#转换数据集,导出数据集
pathway_data<-as.data.frame(pathway)
write.table(pathway_data,"<path>/KEGG_pathway_allspacies_database.txt",row.names = T,col.names = F,sep = "\t")
##对单个(小麦)数据库进行物种的选择
taes_pathway <-keggList("pathway","taes")#taes是小麦的缩写
taes_pathway_data<-as.data.frame(taes_pathway)
write.table(taes_pathway_data,"<path>/KEGG_pathway_wheat_database.txt",row.names = T,col.names = F,sep = "\t")
##获取KO(所有基因)数据集中的数据
Ko<-keggList("ko")
Ko_data<-as.data.frame(Ko)
write.table(Ko_data,"<path>/KEGG_KO_allspacies_database.txt",row.names = T,col.names = F,sep = "\t")
##获取KO(小麦)数据集中的数据
taes_Ko<-keggList("ko","taes")
taes_Ko_data<-as.data.frame(taes_Ko)
write.table(taes_Ko_data,"<path>/KEGG_KO_wheat_database.txt",row.names = T,col.names = F,sep = "\t")

得到文件如下:
KEGG_pathway_allspacies_database.txt
KEGG_pathway_wheat_database.txt
KEGG_KO_allspacies_database.txt
KEGG_KO_wheat_database.txt
这个包不仅可以提取map号、ko号还可以提取其他的东西。下图就是所有可提的部分,只要修改以下keggList("pathway","taes")参数即可。


image.png

得到KEGG的描述信息后需要用一个python脚本简单处理一下,输入文件为KEGG_pathway_allspacies_database.txt、KEGG_KO_allspacies_database.txt

#将得到的KO、pathway文件进行处理,得到可以富集的描述信息文件
with open("KEGG_KO_allspacies_database.txt","r") as file:
    out=open("KEGG_KO_allspacies_description.txt","a+")
    for line in file:
        line=line.strip()
        if "[EC:" in line.split("\t",maxsplit=1)[1] :
            desc=line.split("\t",maxsplit=1)[1].rsplit("[EC:",maxsplit=1)[0].split(";")[1].strip('"')
            id=line.split("\t",maxsplit=1)[0].split(":")[1][:-1]
            out.write(id+"\t"+desc+"\n")
        else:
            if ";" in line.split("\t",maxsplit=1)[1]:
                out.write(line.split("\t",maxsplit=1)[0][:-1].split(":")[1]+"\t"+line.split("\t",maxsplit=1)[1].split(";")[1].strip('"')+"\n")
            else:
                out.write(line.split("\t",maxsplit=1)[0][:-1].split(":")[1]+"\t"+line.split("\t",maxsplit=1)[1].strip('"')+"\n")
with open("KEGG_pathway_allspacies_database.txt") as file1:
    out1=open("KEGG_pathway__allspacies_description.txt","a+")
    for line1 in file1:
        line1=line1.strip()
        map_id=line1.split("\t") [0].strip('"').split(":")[1]
        descript=line1.split("\t") [1].strip('"')
        out1.write(map_id+"\t"+descript+"\n")

输出文件为KEGG_KO_allspacies_description.txt、KEGG_pathway__allspacies_description.txt


image.png

image.png

这样我们GO、KEGG富集前准备文件就完成啦!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容