windows下直接跑MEME suite?对!任何人都可以。

Motif,模式,pattern,如下。我个人理解为:一组具有类似特征的序列。而在分子序列中,那么就是具有类似分子(如碱基或氨基酸)的序列。



Motif,不是一个序列,所以在生物序列分析时,无论是预测和挖掘,都并不是简单的完全匹配就能完成,他的处理,有点像正则表达式,但事实上,应是HMM。这种情况下,使用已有工具,其实是最合适的。
MEME suite是一个motif挖掘和分析工具。在大多数情况下,我们会使用它从批量数据中鉴定出某些保守的motif,比如Chip-seq;当然,我们也会使用某个特定的motif,去海量的序列中,查找可能包含该motif的序列,比如转录因子结合位点或特定元件。

写在前面

Emm......生物信息,应是一门完整的学科。而整个市场在批量生产生信工程师,这个跟IT是类似的,比如批量生产程序员。这种情况的出现,可能是因为存在一些无法自动化的东西,而需要人工干预。这个话题,已经很久没有再谈及。故,这里也不做展开。

一些思考

无论生物信息学怎么发展,但是生物(或者美其名曰,生物信息)数据分析,总是可以有相对简单地方式去完成一些相对简单的目的。我一直对外推荐,新手用python,然而我还是在用perl。推荐python,主要原因是,主流如此。而我还在用perl,是因为我喜欢我所理解的和接受的perl的设计理念。

使简单的事情,可以非常方便地完成;而对于复杂的事情,努力一下,也可以完成。

我最喜欢的是前半句。我之所以这么说,可以看我QQ空间几年前写的perl one-liner日志,里面是一些我现在不太看得上的,但是可以完成很多事情的,单行命令。
如下,单行进行序列批量提取


或者单行获取所有序列长度

perl -0076 -ane '@F=map{s/[>\r\n]//gr}@F;$id=shift @F;print $id,qq{\t},length (join q{},@F),qq{\n} if $id' in.fa

事实上,或许你没有意识过来,上述的perl单行,其实是跨平台的且随时可以copy-paste运行,而你几乎不需要下载任何程序。换句话说,找个linux或者windows(当然perl解释器先安装好),就可以直接黏贴运行,并输出结果
这些想法,出发点,从一开始就长在我的潜意识中,并蔓延到所有我写的脚本或者工具。
很明显,TBtools就是这样一个体现。而他的开发,却被一部分人误解(我其实甚至不知道误解我个人出发点的那部分人是否有自己对生物信息的认知)。TBtools的存在,名义上是为了湿实验工作者开发,实际上则是为了在是实验室工作的干实验工作者开发。每一个课题组,每个人都有擅长的事情;通力合作,各取所长,才是整体前行的最大助力。作为一个自称搞分析的,难道你最擅长的是帮别人提序列?做热图?做Venn?跑本地Blast?....,我想,不是吧。以任何方式,消灭一些高重复低复杂的工作,才是事实上节约彼此时间的事情。

Windows下直接运行MEME suite

课题组最近做了一些测序,需要做类似的分析。我个人的建议是,把序列抓出来,然后到MEME suite官网跑一下看看。结果是什么?无尽地等待!MEME suite网页分析常常需要排队,且每次排队可能是一两天。解决的办法只有两个:

  1. 上服务器,命令行运行
  2. 让其他人上服务器,命令行运行

而我变成了上面的其他人。分析的要求,有各种各样,我有事的时候,其实并不想过多地沟通,但拒绝合作,并不是课题组发展的最好选择。
于是,我小修了MEME和MAST的源码,并编译,随后打包到了TBtools。
于是,所有人都可以自己跑了,即是你在windows下。

使用MEME,任何平台都可以

注:如果是linux或者Mac,需要自行安装好MEME suite....;如果是windows用户,直接TBtools.exe安装器安装即可
使用的示例数据输入为拟南芥的126个MYB蛋白(注意,核酸序列也可以),运行时间大体是2min,序列越多,时间则指数型增长。


与运行网页工具的操作是类似的,设置好对应的参数即可,



以上,设置motifs个数为3,motifs长度为6到50,得到输出文件如下



其中meme.txt文件,直接用文本编辑器打开,即可看到类似MEME suite网页版运行结果的纯文字版本;
而meme.xml文件可以直接用于TBtools做可视化


同时,也会得到3个motifs对应的SeqLogo信息
使用矢量图编辑器打开即可


MAST的使用是类似的。当我们获得一些motifs之后,我们可以用这些motifs,从海量数据中快速搜索包含该motifs的序列。MAST的运行是很快的。上万个序列,也是秒级出结果。我们可以直接上述使用meme.xml文件作为输入。这里我们使用原来的蛋白序列集合作为输入。

注:MEME的主要目的是从一堆序列中抓出可能的保守模式,在于挖掘;MAST的主要目的是基于模式找位点,在于鉴定。相对而言,后者敏感度可调整性高些。具体使用者,应有自己的理解。

写在后面

但行好事,莫问前程。是吗?
需求来自于课题组的实际需要,如果你的课题组也做这类似的生物学问题/实验,那么或许你还是可以关注一下的
欢迎访问本课题组网站
园艺植物小分子RNA与基因组研究-夏瑞课题组

课题组主页:http://xialab.scau.edu.cn/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容