ChIP-Seq数据挖掘系列-6: 怎么选择HOMMER结果中的motif

HOMER 是一套用于Motif查找和二代数据分析的工具。hommer结果中一般包含已知motif富集情况,并且也会对用户提供的序列进行重头预测motif。

很多同学在拿到这个结果后都是一脸懵,尽管Homer motif Results是有排序的,排名第一的可能并不是用户的期望,后面的结果也是可以选择的,但是如何评价及选择这些结果?

#先来看一个例子

motif results example
  • 预测的这个motif的显著性已经很高了。
  • 点击More Information可以查看序列与mitof的比对信息,
motif alignment

这段序列比对到了已知motif(YY1),但是我们可以发现比对上的位置并不是YY1 motif (CAAGATGGC)的中心区域。因此YY1 motif 并不是完整的motif在用户的数据中富集,因此这个结果是不太可信的。

注:记住, Hommer是一个重投预测motif 的工具,因此对于Hommer结果,用户需要查看所选择序列与motif的匹配情况,获得充足的证据来支持自己的选择,而不是盲目相信HOMER 的排序。

在许多情况下,HOMER 结果有很显著的p值,但是motifs 却不是好的。

因此,在选择motif的时候,用户需要注意以下的原则:

#低复杂度的Motifs

  • (Low Complexity Motifs)(less of a problem with the v3.0+)

低复杂度的motif序列的核苷酸倾向于都是同一种核苷酸,从而导致GC含量异常。

low complexity motif

当目标序列和背景库中序列之间存在系统性偏差时会导致这样的结果。通它们的GC含量非常高。在这种情况下,您可以在motif分析命令中添加参数“-gc”,从而使运算按总GC含量而不是CpG岛含量进行标准化。

其它情况,当分析多样的基因组序列时,这是很难在背景中控制的。例如,将一个启动子序列比对到某些物种随机基因组背景序列,结果会对嘌呤或嘧啶的偏好。HOMER非常敏感,所以如果序列的组成有偏差,HOMER 很可能会发现。新版本中的Autonormalization可以尽量减小这个问题的发生。

#简单重复序列

  • (Simple Repeat Motifs)(less of a problem with the v3.0+)

motifs 有时候会出现一些序列模式的重复

repeat motif

这种motifs 一般会有数个差不多序列的motifs。除非有充分的理由相信这些可能是真实的,否则背景序列可能有问题。如果你的目标序列在外显子和其他类型的序列上高度富集,就会出现这种情况;并且如果"-gc"参数也不能改善结果,用户就需要考虑自己正在分析序列的类型以及怎么去匹配他们。

#低质量和低重复的Motifs

  • (Small Quantity Motifs / Repeats)

这种发生在motif看起来很靠谱,但是在序列中出现的百分比缺失很低的。例如,寡核苷酸和重复序列在用户序列中出现从而导致极高的显著性。统计上使显著的,但是事实上却并不是。一些调节基因的启动子序列会发生这样的事情。原则上,motif 在不到5%的靶序列中存在的话,这个motif不太可信。

# 其它问题

  • (Leftover Junk)
    一些高质量的motifs 可能会出现在结果的后面。如果一个motif在序列中高度富集, HOMER 会发现他们,然后继续寻找新的motif。后续的motifs 可能会掩盖先前找的motif。

排名第一的motif:


top pu.1 motif

后续的motif:

PU.1 example 4

这种情况不一定是坏的,但是也需要考虑;常常发生于ChIP-Seq数据中,免疫沉淀的蛋白高表达以及与大量的结合位点紧密结合。这些motifs 可能结合PU.1,但是亲和性不高。处理这种情况的方法是重复motif 分析的过程,但是丢掉 the top motif(排名靠前的),添加参数-mask <motif file>就可以在motif分析过程中忽略这些top motif 。

#原文

How to Judge the Quality of the Motifs Found

ChIP-Seq 数据挖掘系列文章目录:
ChIP-Seq数据挖掘系列-1:Motif 分析(1)-HOMER 安装
ChIP-Seq数据挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步骤
ChIP-Seq数据挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq结果在基因组区域中寻找富集的Motifs
ChIP-Seq数据挖掘系列-4: liftOver - 基因组坐标在不同基因组注释版本间转换
ChIP-Seq数据挖掘系列-5.1: ngs.plot 可视化ChIP-Seq 数据
ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工具ngs.plot.r 和 replot.r 参数详解

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,124评论 6 523
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 96,453评论 3 404
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 172,386评论 0 368
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,136评论 1 301
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,142评论 6 400
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,593评论 1 315
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,958评论 3 429
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 40,944评论 0 279
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,477评论 1 324
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,512评论 3 346
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,639评论 1 355
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,227评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,971评论 3 340
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,397评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,550评论 1 277
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,203评论 3 381
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,713评论 2 366