转录因子靶基因互相预测全网最全,没有之一
还记得先前提到的基因转录调控数据库“转录因子靶基因预测,不用到处搜了,都在这了”(Gene Transcription Regulation Database,GTRD)吗?由俄罗斯学者整理,在SRA、ENCODE、GEO等资源库收集公共的ChIP-seq试验并鉴定转录因子结合位点,提供了公开数据下载。
1 GTRD数据库简介
GTRD数据库的开发始于2011年,自发布以来,数据库一直在保持更新。以下是2019年作者发表的文章,总结了目前数据库的资源信息。
总的来说,相比最初的版本,主要改进可归纳如下。
(1)先前的版本仅包含人类和小鼠的数据,当前的版本包含七个模式物种:人类(Homo sapiens)、小鼠(Mus musculus)、大鼠(Rattus norvegicus)、斑马鱼(Danio rerio)、秀丽隐杆线虫(Caenorhabditis elegans)、果蝇(Drosophila melanogaster)、酿酒酵母(Saccharomyces cerevisiae)、裂殖酵母菌(Schizosaccaromyces pombe)和拟南芥(Arabidopsis thaliana)的 ChIP-seq 实验鉴定的转录因子结合位点(TFBSs)和转录共激活蛋白。
(2)收录的ChIP-seq实验的数量增加了三倍以上。目前而言,以人类和小鼠为例,包含了超过2000种转录因子的20000多例ChIP-seq实验数据。
(3)先前的数据库仅针对转录因子收集的ChIP-seq实验,新版本还包含有关转录共激活因子结合区的数据,以及通过DNase-seq鉴定到的开放染色质区域和TFBSs(DNase 印迹)。
(4)利用HOCOMOCO数据库的位置权重矩阵(position weight matrices)鉴定的人类和小鼠的潜在的TFBSs。
(5)作者还对ChIP-seq试验等的一系列处理工作流程作了改进,相较于先前的结果更加稳健。
GTRD数据库的当前内容及其派生的信息资源如图所示。
2 GTRD数据库的在线使用
访问在线数据库资源,在主界面点击“Start”,可通过网页搜索查询转录因子及其靶基因的关系。
不过,本人感觉在线界面操作并不好用,因此这里就不对在线使用作更多简介了。
在这里向各位老师推荐我们整理好的本地表格。
3 好消息,我们整理了本地版的转录因子-靶基因关系表
我们将其鉴定结果进行整理,并对ChIP-seq鉴定的峰进行了基因区域的重新注释。
以转录因子MYC基因-靶基因关系为例,结果包含如下。
“*.output”文件中包含了基因组中所有区域(promotor、UTR、exon、intron)的结合峰。
转录因子通常结合靶基因的启动子区域发挥作用,我们将“*.output”中注释到启动子区域的的结合峰单独提取出,获得文件“.promotor”。其中,“than2”代表该峰在至少两个样本中鉴定到,“than3”代表该峰在至少三个样本中鉴定到。结果中,包含了ChIP-seq实验名称、组织细胞类型、转录因子类型、结合的靶位点基因位置及功能描述等信息。
对特定转录因子的调节靶基因集进行KEGG富集分析,用于描述该转录因子参与的调控通路,结果见“*.promotor”文件夹。如下所示识别的MYC靶基因的KEGG通路富集概况,由通路可了解该转录因子参与调控哪些生物学过程及通路,方便我们判断该TF是否重要。
使用我们已经整理好的对应关系表,您可以很方便地:
(1)根据已知的转录因子,寻找对应的下游靶基因;
(2)根据靶基因,寻找上游的转录因子;
(3)结合RNAseq差异表达基因列表,识别哪些对应了转录因子,哪些是靶基因,它们之间存在怎样的上下游关系。
(4)根据转录因子参与的通路判断其重要性。
来看一个实际应用,在下载后的GTRD数据库靶向关系表中进行搜索,在差异表达基因集中定位哪些基因是转录因子,将它们提取出来,并继续在差异表达基因集中寻找与已知转录因子互作的靶基因。最后将差异表达基因中差异表达的转录因子与靶基因关系进行整理,获得关系表,如下所示。
4 关于转录因子-靶基因关系搜索的常见问题
该数据老师可以直接找到对应的转录因子,去查看涉及到哪些靶基因。但是在实际分析过程中,可能会遇到一些问题,我们列举几条常见的。例如:
所关注的转录因子-靶基因关系未在数据库中检索到?我们知道,数据库根据已知的资源构建,由于当今大部分基因的功能仍有待发掘,因此数据库中不包含的并不完全代表没有。如果未检索到,可以更换其它的数据库试试,如TRANSFAC、JASPAR、hTFtarget等,也可以通过近缘物种类似的转录因子-靶基因关系去推断,必要时可能需要重新设计ChIP-seq试验。但需要注意的是,ChIP-seq试验作为一种高通量的方法本身也存在假阳性,识别的也不一定100%就是真实的。
靶基因关系太多,该如何做筛选?首先,我们可以在多个数据库结果中取交集缩小范围。其次,转录因子与靶基因的结合具有时空动态性,数据库中列出的靶基因也是在特定的组织、细胞类型、实验条件下确定的。查询时,最好根据具体的实验细节搜索,可以缩小靶标范围并减少假阳性。此外,重点关注显著差异表达的基因,从中寻找响应于特定条件的转录因子-靶基因关系,也是通常选择的方法。
筛选到大量的差异基因,该如何评估基因的重要性?假如您想要确定一个转录因子,可以在差异基因中筛选差异表达的转录因子,而后分别预测他们的靶基因,当然靶基因也是有差异表达的,进一步可以预测这些靶基因涉及到的pathway通路或生物学过程等,这时我们或许会更能了解,哪个转录因子在所有差异基因是关键的,地位是重要的,据此可以挑选出这个重要基因,而后进行后续机制研究。
那么其他差异基因能否可以依照此办法进行功能重要性评估?由于普通基因没有这种明显的靶基因关系,不容易去寻找他们的靶基因,但问题总要解决的。