GO.db:存储Gene Ontology信息的R包

欢迎关注”生信修炼手册”!

在生信分析领域,R语言由于其简单易用的特点和良好的生态环境,占用重要的一席之地。其中,Bioconductor作为生信分析专用的R语言社区,提供了许多的R包。

Bioconductor上的所有R包可以分成4大类别,示意图如下


software类型的R包用于执行某项具体的分析内容,比如edgeR, DESeq2等,AnnotationData类型的包在R中存储了对应的数据库,比如GO.db等,ExperimentData类型的包存储了实验数据,Workflow类型的包提供了完整分析的pipeline。本文主要介绍AnnotationData类型的包。

为了规范化开发,方便R包的使用,Bioconductor的开发者提供了几种基础的R包,用于定义几种基础信息的存储方式。

对于数据库内容的存储和使用,在AnnotationDbi这个包中统一进行了定义。由于采用了面向对象的编程方式,所有继承了这种对象的R包其使用方式是一样的。

在Bioconductor中,有以下4种类别的注释信息包,都继承了AnnotationDbi

  1. Organism level
    比如human对应的Org.Hs.eg.db, 存储了人类的基因信息。

  2. Platform level
    比如hgu133plus2.db, 这种类型的包主要存储不同平台的数据,比如不同芯片的探针信息。

  3. Homology-level
    比如hom.Dm.inp.db,存储了同源信息

  4. System-biology level
    比如GO.db, 存储生物学相关的数据库。


所有这些后缀为.db的R包,其本质都为一个sqlite数据库,一种轻量级的关系型数据库,只不过是通过R来进行访问。

GO.db为例,在下载的源代码中,可以找到对应的后缀为.sqlite的数据库文件,位于extdata目录下。

关系型数据库中的基本单位是表,对于一个.db的R包而言,可以通过以下4个函数访问其中的内容

  1. columns

  2. keytypes

  3. keys

  4. select


对于一个数据表而言,首先我们需要知道表头信息,就可以通过columnskeytypes函数来访问得到,示例如下

> keytypes(GO.db)
[1] "DEFINITION" "GOID"       "ONTOLOGY"   "TERM"      
> columns(GO.db)
[1] "DEFINITION" "GOID"       "ONTOLOGY"   "TERM"

从以上代码的结果可以看出,GO.db提供的数据表共有4列。
假如想要访问其中某一列的值,可以通过keys函数,示例如下

> keys(GO.db, keytype = "GOID")[1:3]
[1] "GO:0000001" "GO:0000002" "GO:0000003"

上述代码返回GOID这一列的内容。

对于数据库而言,查询是基本操作,在SQL语言中,通过select实现,对应的在R中通过select函数来实现,示例如下

> k <- keys(GO.db, keytype = "GOID")[1:3]
> select(GO.db,
   keys = k,
   columns = c("TERM","ONTOLOGY"),
   keytype="GOID")
'select()' returned 1:1 mapping between keys and columns
        GOID                             TERM ONTOLOGY
1 GO:0000001        mitochondrion inheritance       BP
2 GO:0000002 mitochondrial genome maintenance       BP
3 GO:0000003                     reproduction       B

通过返回结果可以看到,GO.db提供了一张4列的数据表,GOID表示GO编号,DEFINITION表示GO功能的详细描述信息,TERM表示功能的简单介绍,ONTOLOGY表示GO的3大类别。

除了基本的数据表之外,在这种类型的包中还会提供很多其他信息,可以通过ls函数查看,示例如下

> ls("package:GO.db")
[1] "GO"            "GO.db"         "GO_dbconn"     "GO_dbfile"     "GO_dbInfo"     "GO_dbschema"  
[7] "GOBPANCESTOR"  "GOBPCHILDREN"  "GOBPOFFSPRING" "GOBPPARENTS"   "GOCCANCESTOR"  "GOCCCHILDREN"
[13] "GOCCOFFSPRING" "GOCCPARENTS"   "GOMAPCOUNTS"   "GOMFANCESTOR"  "GOMFCHILDREN"  "GOMFOFFSPRING"
[19] "GOMFPARENTS"   "GOOBSOLETE"    "GOSYNONYM"     "GOTERM"

其中有一部分对象的类型AnnDbBimap, 示例如下

> GOTERM
TERM map for GO (object of class "GOTermsAnnDbBimap")

这种对象类似基本数据结构中的list, 常用的操作语句示例如下

> mappedkeys(GOTERM)[1:3]
[1] "GO:0000001" "GO:0000002" "GO:0000003"

> ls(GOTERM)[1:3]
[1] "all"        "GO:0000001" "GO:0000002"

> GOTERM[["GO:0000001"]]
GOID: GO:0000001
Term: mitochondrion inheritance
Ontology: BP
Definition: The distribution of mitochondria, including the mitochondrial genome, into daughter
    cells after mitosis or meiosis, mediated by interactions between mitochondria and the
    cytoskeleton.
Synonym: mitochondrial inheritance

> get("GO:0000001", GOTERM)
GOID: GO:0000001
Term: mitochondrion inheritance
Ontology: BP
Definition: The distribution of mitochondria, including the mitochondrial genome, into daughter
    cells after mitosis or meiosis, mediated by interactions between mitochondria and the
    cytoskeleton.
Synonym: mitochondrial inheritance

> mget("GO:0000001", GOTERM)
$`GO:0000001`
GOID: GO:0000001
Term: mitochondrion inheritance
Ontology: BP
Definition: The distribution of mitochondria, including the mitochondrial genome, into daughter
    cells after mitosis or meiosis, mediated by interactions between mitochondria and the
    cytoskeleton.
Synonym: mitochondrial inheritance

lsmappedkeys函数都是用于查看这个列表的名称,只不过ls会对所有key排序;getmget选取其中的内容,也可以像list一样,通过[[ ]]操作符直接访问。

由于和list类似,所以经常会将这些对象通过as.list转换之后,在进行操作,示例如下

> go <- as.list(GOTERM)
> go[[1]]
GOID: GO:0000001
Term: mitochondrion inheritance
Ontology: BP
Definition: The distribution of mitochondria, including the mitochondrial genome, into daughter
    cells after mitosis or meiosis, mediated by interactions between mitochondria and the
    cytoskeleton.
Synonym: mitochondrial inheritance


需要注意的是这个步骤是非常耗时的,实际使用时,可以先挑选子集,然后在转换成list。


很多做GO富集分析的R包都会调用GO.db, 掌握其基本操作,有助于理解其他封装好的R包。


·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,916评论 2 89
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,644评论 18 139
  • 从朋友的角度聊一聊 我对待企业的看法,夫妻店到现在的规模,不往前走结果就是夫妻店或者消失,向前走就会有担心,现在五...
    Serene汤先允阅读 227评论 0 0
  • 文/素白 去深夜里浇花顺便看一眼昨夜的月亮找一株未命名的植物让她在秋天的萧瑟里堕落 不要逼迫所有种子都要饱满让她长...
    素白_阅读 2,176评论 27 58
  • 下周,必将是很难过的一周。 因为我们的市委书记要到我们这个小地方视察,并且指名道姓的要到我们学校来。从接到消息,学...
    风雨同舟_f997阅读 190评论 2 1