转录调控的信息学分析
0. 引言
1. 转录因子结合位点的信息学预测方法
大量的实验证据表明,TFBS的长度一般在6~12bp之间。
然而,ChIP-chip技术的分辨率在200~800bp左右,远大于TFBS的长度,所以需要计算方法来确定TFBS的确切位置。
与之相比,ChIP-seq技术的分辨率可以达到100bp,甚至更高。
因此随着基因芯片和深度测序等高通量数据的出现,计算方法在TFBS的分析中得到了广泛的应用。
对TFBS的计算研究可分为两类问题:
-
转录因子结合位点的定位(location of TFBS)
根据若干已知TFBS的motif,在所研究的某个基因启动子区域内,搜索相应转录因子可能的结合位点。
-
转录因子结合位点的识别(identification of TFBS)
通过收集多个基因启动子序列,在其中寻找具有统计显著性的短片段,作为同一转录因子可能的结合位点。
一、转录因子结合位点的表示方法
-
共有序列(consensus sequence)
不同基因的启动子区域中,同一转录因子的结合位点并不完全相同。可以对同一个转录因子结合的所有DNA片段按照对应位置进行排列,在每个位置上选择最有可能出现的碱基,组成了该TFBS的共有序列。
共有序列中用之外的字母来表示结合位点中各个位置上可能出现的碱基组合,这些字母被称为简并码(IUPAC degenerate codes)。
-
共有序列的表示方法简明易懂,却不能反映每个位置上不同碱基出现的频率。
IUPAC code Nucleotide IUPAC code Nucleotide W A or T B C, G or T R A or G D A, G or T K G or T H A, C or T S C or G V A, C or G Y C or T N A, C, G or T M A or C
-
位置频率矩阵(position frequency matrix,PFM)
- 位置频率矩阵可以反映出每个位置上不同碱基出现的频率。
- 该模型的一个前提假设是,各个位置上碱基出现的频率相互独立。矩阵每一列表示motif相应位置上四种碱基出现的频率。对于长度为的motif,碱基在motif第个位置上出现的频率为。
-
序列标识图(sequence logo)
- 序列标识图依次绘出motif中各个位置上出现的碱基,每个位置上所有碱基的累积反映了该位置上碱基的一致性,每个碱基字母的大小与碱基在该位置上出现的频率成正比。
- 这种表示方法直观地给出motif各个位置上碱基出现的倾向性和整个motif序列的一致性,应用非常广泛。
二、转录因子结合位点的定位
-
转录因子结合位点定位的计算方法
- 对任一长度为的已知motif位置频率矩阵,TFBS定位就是判断某一长度为的序列片段与M的匹配程度。考虑到DNA序列本身有可能存在碱基组成上的偏向性,通常把位置频率矩阵转换为位置权重矩阵(position weight matrix,PWM)。用位置权重矩阵的打分来衡量motif与任意给定序列的匹配程度。
- 在位置权重矩阵中,引入碱基在背景序列中出现的频率记为来消除DNA本身碱基组成偏向性的影响。位置频率中的每一个元素记为:
- 对于长度为的DNA序列片段,它作为模体M对应的TFBS的打分为:
其中,表示相应序列第个位置上出现的碱基。给定阈值,如果序列片段由上式给出的打分 ,则认为它有可能是相应转录因子的结合位点。
-
转录因子结合位点定位的预测
在TRANSFAC中包括了多种转录因子及其结合位点的预测工具:
- AliBaba 2.1
- P-Match
- Patch
- MatrixCatch
三、转录因子结合位点的识别
- 获取靶基因序列
- 从基因差异表达谱芯片数据出发获取多靶基因启动子序列
- 从差异表达蛋白质数据出发获取多靶基因启动子序列
- 从ChIP-chip和ChIP-seq数据出发获得结合位点序列
- 转录因子结合位点识别的预测
- 单个motif预测算法
- 比较基因组学
- bootstrapping算法
2. 转录调控相关数据库
- TRANSFAC数据库
- JASPAR数据库
- TRED数据库
- 其他转录调控相关数据库