已有：

知道某原核生物某转录因子的DNA序列
目标基因的基因组测序数据
另外还有这个转录因子的靶基因的ORF序列

目的：
1、分析该转录因子结合位点。
2、分析该转录因子可能作用的基因及信号通路

相对难的是两点

1 转录因子未知
2 原核生物尤其这个物种的数据库很少

理论基础，转录因子本质是蛋白质，结合在TSS上游的启动子序列（有的在gene内部）
1.由该TF的DNA序列得到其最大ORF
2.NCBI blastp发现其最大的hit序列（同时用另一个网站再次证实）
3.若去预测整个基因组中其结合的promoter区域不现实也不真实，只看一个已知ORF序列的可能的结合位点
4.得到该基因起始位点上游1000个nt序列作为扫描对象
5.得到转录因子结合的DNA的motif,然后用MEME对4中的序列进行扫描预测，得到结合的序列。此外对全基因组进行扫描，减小p值，看其作用位点。
6.最后，做了个不靠谱的这个启动子序列以人和小鼠作为训练模型的启动子结合位点预测。

1.由该TF的DNA序列得到其ORF

>aa
MPVANVFSRTAAQRPAPLHTVVIALNVMKEMGVPAEVLLRGTGISPEEIEQANAMVTHAQEMVLFANALEATGNSAIGLHIGSSIPVTAYGLRGHAMLVSPTLGDAMRLAYEHPLMAISYFQITLGVNVDLARVTVGGYTYRADLLVLNTDMCLAAVRREIIDLIGRVPTFRRVGLAFPPPAHASVYSDIFDCEVTFDTEENFLEFDADLLDIRLPLAHSIEFEISRRACEKREFELSHWVPADLVGRLFGIMYDNPTCQDVVKLTGKLGMSPRSLQRKLKEMGTSFSALHDLVRRDIASRYLSENKSTKEIAARLGYKNTSAFSRAMKRWSKLAGD

2.NCBI blastp发现其最大的hit序列

image.png

specific hits为Arabinose_bd , HTH_ARAC,HTH_18,AraC

Arabinose-binding domain of AraC transcription regulator, N-term; AraC is a bacterial transcriptional regulatory protein with a DNA-binding domain at the C-terminus, HTH_AraC, pfam00165, and this dimerisation domain which harbours the arabinose-binding pocket at the N-terminus. AraC positively and negatively regulates expression of the proteins required for the uptake and catabolism of the sugar L-arabinose
其含有明显的两个转录因子特征domain，一个是蓝色的DNA结合结构域Helix-turn-helix，一个是粉红色的转录激活结构域。

然后又在https://prosite.expasy.org/scanprosite/进行预测
结果为