一、检索已验证的调控单基因的转录因子
1、在线查询数据库 (http://evexdb.org/),是以PubMed和PubMed Central中发表文章的摘要和全文为依据进行文本挖掘探寻基因直接可能的相互作用的工具
貌似网站因为版本存在一点小问题,具体的内容无法展开。网友推荐以下解决方案
2、使用Cytoscape的插件Cytoscape literature search,该插件可以通过给定关键字搜索文献,并且基于搜索结果构建互作网络,帮助研究者快速搜索和提取基因之间,蛋白之间可能的联系。
从菜单栏Apps-Agilent Literature Search启动
使用界面如下。
左侧一般输入一个或多个基因 (若输入多个则每一行输入一个),右边限制一个环境,可以是物种,也可以是某种疾病如lung cancer,或某个过程stem cell。下面的选项还可以选择是否使用别名 (选择后我们输入的pou5f1就被转成了oct4, otf4等),限定物种,限定相互作用的判断 (个人一般使用relaxed)
前面输入的内容都会在Query Editor中转换为逻辑查询表达式的形式,方便查看搜索的内容是否符合自己的需要,也可以自行修改,比如我们把stem cell改为AND连接。
点击蓝色箭头就可以启动搜索。搜索到的文献展示在左下角,可点击跳转到PubMed,右键删除某一项。
右侧展示的是挖掘出的调控网络,可以根据属性进行一些修饰、美化和查询。
但是我不太使用该方法,下面介绍的这种方法我觉得还挺不错的,简洁明了,但是数据库里录入的靶基因与转录因子的关系不太多
3、TRRUST(Transcriptional Regulatory Relationships Unraveled by Sentence-based Text mining),可公开免费获得的人类TF-靶标相互作用的数据库
http://www.grnpedia.org/trrust/
Part 1
Search a gene in TRRUST database
这里可以查询转录因子的靶基因:
非常智能的是,如果输入的基因本身是编码转录因子的基因,则会输出该转录因子的靶基因、调控该转录因子的其他转录因子等内容。如果输入的基因不是转录因子,则只会输出调控该基因的转录因子。
当然这些在线数据库也是具有预测功能的,这里我们就不展开讨论了
二、预测单基因的转录因子
1、结合UCSC、PROMO数据库
首先,需要找到靶基因的启动子序列
打开UCSC数据库
以HOTAIR为例
点击红色的那个序列
点击上图中,绿色框
继续点击
得到这个界面,我们需要修改一些参数:转录起始位点上游2000nt和下游100nt区域为我们所选的启动子区。
Submit
OK,启动子序列有了。拷贝下来。
接下来,我们打开PROMO数据库:
http://alggen.lsi.upc.es/cgi-b
在SelectSpecies进行部分设置,
Submit
另外,如果对转录因子有选择的话,也可以在SelectFactors中进行设置。
最后,我们点击SearchSites
将刚刚得到的启动子序列粘贴进行。另外,默认容错率15%,如果得到的转录因子过多,我们可以进行调整,设置成5%或0%。
Submit
我最终设置了容错率为0,一共得到了120个预测的转录因子。
那么这些转录因子都有可能与HOTAIR的表达相关,可能存在正向或负向的调控关系。
2、Genecards(https://www.genecards.org/Guide)
:这个数据库是对基因信息的介绍很全面,包括基因组、转录组和蛋白质组学等。对于靶基因的转录因子预测也是可以查看的(详细步骤如下图)。以TP53基因为例:
1.先进入genecards
2.搜索靶基因TP53:选择第一个
3.进入后如下,并找到Genomics for TP53 Gene,就可以看到transcription factors binding sites了,也可以进入图形进行查看。
4. 找到SPP(Signaling Pathways Project),点击进入:
5. SPP可以选择物种类型,这里展示human的:(还可以选择来源的系统哦)
6. 结果就是这样的了:图形中有对转录因子家族进行分类,可以按照自己的需求进行查看。
数据库预测靶基因的转录因子只是一种可能性,后续可以通过相关的文献以及你的实验结果提示,进一步去筛选可能性更大的转录因子,降低工作量(科研的有效时间应该尽量做更多有效的实验!)
3、Cistrome DB数据库
https://link.zhihu.com/?target=http%3A//cistrome.org/db/%23/
点击Toolkit 可以检索哪个因子调控了我们感兴趣的基因,哪个因子结合在用户的基因组区域或者和用户的peak有显著重叠。
使用方式和功能条件如下:
(1)输入基因名称, 查看有哪些转录因子可能调控该基因;
(2)输入基因组区域,查看有哪些转录因子可能结合在该区域;
(3)输入peak结果,查看哪些转录因子的结果与你的输入结果有明显的overlap,可以用于转录因子的colocation分析。
这里我们重点介绍第一种:Toolkit从基因层面回答“What factors regulate your gene of interest?”
以上面为例,输入基因GAPDH显示内容如下(因为上面只输入了一个基因,没有具体到位置,所以有多个位置选择):
这里我们选择片段:chr12:6534516:6538370:NM_001289746:GAPDH,点击continue,提供内容如下。
表格:
图表:形式①,可以选因子和生物来源:
横坐标表示调控潜势(RP),纵坐标表示不同的因子。
图表:形式②:
上图只展示前20(或更少)因子,Y轴表示样品中总peak的重叠峰比,X轴表示不同的因子,x轴上的点表示相同的因子。
可以看到,在这个功能中,我们可输入任意的蛋白质编码基因,Cistrome DB Toolkit会返回按照调控潜能排序好的转录因子列表,哪个因子结合在用户的基因组区域或者和用户的peak有显著重叠。
本次就先整理这么多,以上数据库还有非常丰富实用的功能,等下次遇到我们再做总结。