已有:
- 知道某原核生物某转录因子的DNA序列
- 目标基因的基因组测序数据
- 另外还有这个转录因子的靶基因的ORF序列
目的:
1、分析该转录因子结合位点。
2、分析该转录因子可能作用的基因及信号通路
相对难的是两点
- 1 转录因子未知
- 2 原核生物尤其这个物种的数据库很少
理论基础,转录因子本质是蛋白质,结合在TSS上游的启动子序列(有的在gene内部)
1.由该TF的DNA序列得到其最大ORF
2.NCBI blastp发现其最大的hit序列(同时用另一个网站再次证实)
3.若去预测整个基因组中其结合的promoter区域不现实也不真实,只看一个已知ORF序列的可能的结合位点
4.得到该基因起始位点上游1000个nt序列作为扫描对象
5.得到转录因子结合的DNA的motif,然后用MEME对4中的序列进行扫描预测,得到结合的序列。此外对全基因组进行扫描,减小p值,看其作用位点。
6.最后,做了个不靠谱的这个启动子序列以人和小鼠作为训练模型的启动子结合位点预测。
--
1.由该TF的DNA序列得到其ORF
>aa
MPVANVFSRTAAQRPAPLHTVVIALNVMKEMGVPAEVLLRGTGISPEEIEQANAMVTHAQEMVLFANALEATGNSAIGLHIGSSIPVTAYGLRGHAMLVSPTLGDAMRLAYEHPLMAISYFQITLGVNVDLARVTVGGYTYRADLLVLNTDMCLAAVRREIIDLIGRVPTFRRVGLAFPPPAHASVYSDIFDCEVTFDTEENFLEFDADLLDIRLPLAHSIEFEISRRACEKREFELSHWVPADLVGRLFGIMYDNPTCQDVVKLTGKLGMSPRSLQRKLKEMGTSFSALHDLVRRDIASRYLSENKSTKEIAARLGYKNTSAFSRAMKRWSKLAGD
2.NCBI blastp发现其最大的hit序列
specific hits为Arabinose_bd , HTH_ARAC,HTH_18,AraC
Arabinose-binding domain of AraC transcription regulator, N-term; AraC is a bacterial transcriptional regulatory protein with a DNA-binding domain at the C-terminus, HTH_AraC, pfam00165, and this dimerisation domain which harbours the arabinose-binding pocket at the N-terminus. AraC positively and negatively regulates expression of the proteins required for the uptake and catabolism of the sugar L-arabinose
其含有明显的两个转录因子特征domain,一个是蓝色的DNA结合结构域Helix-turn-helix,一个是粉红色的转录激活结构域。
然后又在https://prosite.expasy.org/scanprosite/进行预测
结果为
汗:HTH结合DNA序列特异性并不是很强,还很短。我并不知道用blast是否可以预测出其靶基因。当作不能吧。
3.反过来试试,去MEME上对可能的靶基因的启动子序列进行扫描,看是否有上述HTH_AraC的结合位点
首先去http://jaspar.genereg.net/matrix/MA0227.1/,下载其MEME格式的motif序列,悲催的是没有
换个地方
http://regulondb.ccg.unam.mx/regulon?term=ECK120012316&organism=ECK12&type=regulon
AraC结合的DNA motif
这里无法直接下载meme格式文件,但MEME很人性化,不用那么复杂的格式准备,所以,把下面这些序列复制即可
转到MEME的FIMO
结果如下
该motif结合的DNA序列最佳匹配序列
具体序列为,自己都觉得这种预测可靠性很值得怀疑,还是需要实验验证
TATGGATTTTTCTGCTG
和启动子匹配的结果为,只有一个高分匹配,
把promoter往前2000nt,仍然是一样的结果。
4 把motif在整个genome扫描看其结合位点
虽然p值很小,但也已经不知道有几分可靠性了,这些序列很可能在编码区
---------------------
话外
5 下面这个原核的promoter预测网站很好,虽然没结果
http://www.prodoric.de/vfp/vfp_promoter.php
把promoter加到2000仍然没scan到可结合的序列。
6尝试在所测基因组范围内搜索前面的TF的DNA结合位点
耗时很长