生信宝典之傻瓜式(五) 文献挖掘查找指定基因调控网络


欢迎关注天下博客:http://blog.genesino.com/2018/01/literature-search/
傻瓜系列重启了,如何快速查找指定基因的调控网络介绍了使用在线查询数据库 (http://evexdb.org/)对PubMed和PubMed Central中发表文章的摘要和全文为依据进行文本挖掘探寻基因直接可能的相互作用的工具。反响很好,但现在网站似乎出了点问题,获得的相互作用细节信息不能展开了(推测可能是使用的JS库无法加载)。有朋友留言推荐 Cytoscape literature search,一个存在历史挺久的Cytoscape插件,通过给定关键字搜索文献,并且基于搜索结果构建互作网络,帮助研究者快速搜索和提取基因之间,蛋白之间可能的联系,兼容2.7和3.1版本,下载32,742次。

作为Cytoscape的插件,安装很方便,基本的Cytoscape使用见Cytoscape之操作界面介绍新出炉的Cytoscape视频教程。前段时间R, Cytoscape, AI的培训班也涉及了更多的Cytoscape的使用。

安装完之后,从菜单栏Apps-Agilent Literature Search启动,使用界面如下。

左侧一般输入一个或多个基因 (若输入多个则每一行输入一个),右边限制一个环境,可以是物种,也可以是某种疾病如lung cancer,或某个过程stem cell。下面的选项还可以选择是否使用别名 (选择后我们输入的pou5f1就被转成了oct4, otf4等),限定物种,限定相互作用的判断 (个人一般使用relaxed)。具体每个参数的含义详见后面解释。

前面输入的内容都会在Query Editor中转换为逻辑查询表达式的形式,方便查看搜索的内容是否符合自己的需要,也可以自行修改,比如我们把stem cell改为AND连接。

[图片上传失败...(image-6e2852-1517211124303)]

点击蓝色箭头就可以启动搜索。搜索到的文献展示在左下角,可点击跳转到PubMed,右键删除某一项。

右侧展示的是挖掘出的调控网络,可以根据属性进行一些修饰、美化和查询。

[图片上传失败...(image-8852b1-1517211124303)]

网络查看和美化

首先是调大字体 (Label Font Size),设置搜索出的基因和挖掘出的相互作用基因不同的颜色 (Fill Color-searchTerm-Discrete Mapping), 删掉与核心基因没有连线的点,Apply preferred layout重新调整布局 (工具栏上的刷新按钮)。

如果觉得线太过扭曲,可以Layout-Clear all edge bends,然后再点击Layout-Bundle edges使连接看上去圆润。初步修饰下,效果如下:

[图片上传失败...(image-12ac21-1517211124303)]

如果常用,每次调样式也比较麻烦,可以把样式保存起来,点击样式旁的三道杠,选择Copy style重新命令 (若不导出,关闭后就不见了),然后File-Export导出。下次查询好之后,再File-Import导入就好。也可后台回复 style,获取我们这个简单的样式,以此为基础修改。

每个节点,点击右键,按下图点选菜单,可以看到支持其相互作用的文章句子节选,方便快速阅读和理解潜在的调控关系。

[图片上传失败...(image-abf041-1517211124303)]

更多Cytoscape的使用见之前的新出炉的Cytoscape视频教程。在R, Cytoscape, AI的培训中也有我们的主讲老师讲的更多的Cytoscape的使用。(后台回复 培训 ,跳转到培训网站查看视频)

选项解释

寻求帮助

在上述查询界面,按F1或点Help可以打开帮助页面如下。当前截图显示的是通过View菜单选择搜索的数据库,现在只有PubMedUSPTO (美国商标专利数据库)可选。

[图片上传失败...(image-a7215a-1517211124303)]

Max Engine Matches: 限制每个字符串在每个库最大查询到的结果数目。

Use Aliases: 选定后,将会根据Concept Lexicon中限定的物种寻找左侧输入框输入的内容的别名。查询时,有一个别名匹配上就可以。

Use context: 是否使用Context面板 (右侧输入框)限定查询。

Concept Lexicon Limits Search: 如果需要把搜索结果限制在某个物种,则勾选。

Concept Lexicon: 通常是物种相关的选项,对Use aliases的判断和搜索结果提取有效,但不用于限制查询结果。所以如果要在查询时就限制物种,则需要再右侧输入框输入物种的名字,会加快查询速度。

Interaction Lexicon: 限制判断相互作用的严格程度。对于每个包含搜索关键字的句子,都会来判断里面是都包含interaction lexicon收录的动词,如activate, enhance, cause等。这些关键词可以修改,有严格版和宽松版。

Load and Save: 搜索结果可以存储和再次导入。

选项进一步解释和自定义

如果Windows下,LiteratureSearch的配置文件在目录C:\Users\sxbd\CytoscapeConfiguration\app-data\com.agilent.labs.als.AgilentLiteratureSearch-3.1.1\data下。(把sxbd改为您的用户名)

Interaction Lexicon:前面提到的limit, relax, empty每一个的效果都记录在文件interaction-lexicon-map.txt中,文件内容如下

limited data/strictVerbNames.txt
relaxed data/verbNames.txt
empty   data/emptyVerbNames.txt

每个不同的参数表示使用的关键词列表不同,empty表示不进行限定,只要两个词出现在一个句子中就认为有作用。

strict表示严格限定,默认要求句子中必须含有收录的15个单词中的一个才认为存在相互作用 (在文件strictVerbNames.txt)。

relaxed默认要求句子中必须含有收录的75个单词中的一个才认为存在相互作用,涉及促进、抑制、结合、催化等对应的英文单词和变种,在使用过程中,我们也可以不断完善、添加更多词汇到verbNames.txt中,以获得更多关注的相互作用。

Concept Lexicon

这个由文件concept-lexicon-map.txt控制,默认收录了常见物种的KEGG注释信息、基因的别名信息。

Arabidopsis thaliana    data/.uc_Arabidopsis_thaliana   
Bos taurus  data/.uc_Bos_taurus
Caenorhabditis elegans  data/.uc_Caenorhabditis_elegans
Danio rerio data/.uc_Danio_rerio
Drosophila melanogaster data/.uc_Drosophila_melanogaster
Escherichia coli    data/.uc_Escherichia_coli
Homo sapiens    data/.uc_Homo_sapiens
Mus musculus    data/.uc_Mus_musculus
Rattus norvegicus   data/.uc_Rattus_norvegicus
Saccharomyces cerevisiae    data/.uc_Saccharomyces_cerevisiae

以人的数据为例,前面是KEGG编号、对应的描述,后面是基因的每个名字一行,方便使用别名搜索。

6.3.5.8 aminodeoxychorismate synthase   adc synthase    4-amino-4-deoxychorismate synthase  pabb
6.3.5.9 hydrogenobyrinic acid a, c-diamide synthase (glutamine-hydrolysing) cobb
dynamin dynamin-1   dynamin1
dynamin-2   dynamin2
epsin   epsin1  epsin-1
nf-kappaB   nfkappaB    nfkb1   nfkb    nf-kappa B  nfkappa B
frizzled    fz  fzd fzd7
dsh disheveled  dishevelled dsh1    dvl1l1  dvl1
bcatenin    beta-catenin    beta catenin))

之前如何快速查找指定基因的调控网络文章下有朋友留言,非模式生物怎么查找,一个是利用生信宝典之傻瓜式(四)蛋白蛋白互作网络在线搜索中提到的在线工具STRING收录了2031物种。另外一个就是在这自定义需要的文件,使用此插件搜索。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容