Motif经常出现在表观组学文章中,在ChIP-seq数据分析中占有一席之地,尤其是转录因子。Motif中文翻译为“基序”,本质是一个基于数据的数学统计模型,用来描述一类特征序列集合 (如分析转录因子的潜在结合位点) 的碱基频率特点。所以,通过Motif可以明确两点信息:Motif指代一群序列,一般认为这些序列拥有生物学功能的保守性,即潜在的特异性结合位点或者涉及特定生物学过程的共性序列,并且描绘了这群序列的碱基频率特征。Motif分析包含三个应用方向:Motif Enrichment、Motif Scanning、Motif Discovery。

Motif Enrichment
通过富集分析可以知道哪些Motif的序列在ChIP-seq数据中富集。一个已知的转录因子ChIP-seq实验可以用相应的Motif来验证数据是否合理。目前,已知的转录因子都有相应的Motif被收录在各个数据库,如JASPAR。Motif具有保守性,也就是说在相同条件下的不同数据集里具有相同的特征,这也是可以用来验证的前提。比如,人基因SPI1是一个转录因子,ChIP-seq数据呈现的Motif如下图:

一般会得到很多富集的Motif,此时要留意结果中是否有该转录因子对应的Motif,比如做了人SPI1的ChIP-seq,那富集结果中至少得有上图所示的Motif,由此可以判断实验的有效性。不然,虽然数据有信号,也不能说明结果的正确性,毕竟影响ChIP-seq实验的因素有很多,如抗体的结合情况、特异性等。下面是使用homer2做已知motif富集的示例代码:
findMotifsGenome.pl spi1_peaks.narrowPeak hg38 spi1_motif -nomotif -p 6
homer2软件内置了很多已知Motif的数据,-nomotif参数可以用来控制不做de novo motif富集,可以节约时间。结果文件夹里面会生成相应的结果及网页报告。
Motif Scanning
通过该分析可以得到Motif的序列出现在ChIP-seq数据中的哪些peak里面。可用于过滤数据,含有Motif序列的peak更有可能是潜在的结合位点,从而发现调控的靶基因。homer2做已知motif扫描的示例代码:
head pu1.motif
>AGAGGAAGTG PU.1(ETS)/ThioMac-PU.1-ChIP-Seq(GSE21512)/Homer 7.613173 -1.947446e+04 0 58623.0,41203.0,17624.1,16914.0,0.00e+00
0.643 0.001 0.149 0.207
0.122 0.171 0.706 0.002
0.830 0.012 0.157 0.001
0.001 0.001 0.997 0.001
0.001 0.001 0.997 0.001
0.997 0.001 0.001 0.001
0.990 0.001 0.001 0.008
0.024 0.074 0.900 0.001
0.001 0.005 0.001 0.993
mkdir spi1_motif
findMotifsGenome.pl spi1_peaks.narrowPeak hg38 spi1_motif -p 6 -find pu1.motif >spi1_motif/spi1.seq.txt
-find参数指定需要扫描的Motif,寻找到Motif序列出现在的具体peak位置。
Motif Discovery
通过该分析可以得到ChIP-seq数据中peak里面的de novo motif,寻找转录因子peak中新的特征。homer2做已知Motif Discovery富集的示例代码:
findMotifsGenome.pl macs2/spi1_peaks.narrowPeak hg38 spi1_motif -noknown -p 6
组装新的Motif过程中,有很多参数可以影响最终的结果,需要的话可以根据软件的帮助信息修改相应的值,不知道参数的作用时用默认值就好。
Motif与转录因子并不是简单的一对一关系,也就是说一个转录因子可能会对应多个Motif,而一个Motif也可能对应多个转录因子。