大范围查找序列模式所在位置,用TBtools啊。

写在前面

TBtools开发至今三年有余,让开发工作的持续开展,事实上主要来源于用户朋友的信任与支持。总的来说,我对多数用户存在某种意义上的感谢,毕竟使用一个未正式发表的工具,并在漂亮的发表工作引用,是对我个人能力在某种程度的认可。
与开发早期极少数负面评价相同,同样存在一部分非常支持TBtools的开发工作。部分朋友,甚至将TBtools应用于学校课堂教学。这是我从未敢想的事,毕竟TBtools事实上只是我们课题组(前面硕士与现在博士)分析需求的部分体现。
我是一个潮汕人,潮汕人(或者可能是我家人给我的感觉)有一个传统,即知恩图报,更或者说,滴水之恩,涌泉相报

开发这一功能的起因

在非常支持TBtools开发的用户朋友中,其常常与我提起,

能否开发出一个支持正则表达式检索的工具?用于查找结构域或者特定的模式,如微卫星....

总的来说,我觉得这个功能似乎我并不一定用得到,所以我或者会建议其去找另外的工具,比如MEME suite的MAST,或者自己编程实现。但是最后,似乎他还是没有按照我说的去操作。
昨晚我在等待数据下载的过程中,再次看到其提起。我想这已经是其超过三次的提起,或许确实可以花时间试试,毕竟辜负一个一直支持你的人的期待,似乎是一种不讲义气的操作。我大体想了下,这个事情似乎还不是我以前想的那么简单。

  1. MAST是不允许gaps的,其最大的作用是允许misM
  2. 自己变成时,那么多行的序列的回车需要处理;而如果一次将整条序列读入内存,那么遇到chromosome时,可能会有内存不足。
  3. 序列模式的Overlap的情况需要处理
  4. 不定长度的正则要求,可能确实不好找到工具来处理

总的来说,似乎确实找不到合适的工具可以很好的支持这些需求。所以,我写了一个。

功能的使用

首先是打开TBtools,找到最新的功能,Fasta Sequence Pattern Locator


需要设置的是三个参数:

对于输入的序列文件,事实上,需要保证的只是Fasta格式,而与其序列长度与类型(全基因组序列或者蛋白序列等)没有关系。
对于序列模式,那么需要用户对正则表达式有一定的了解,比如挖掘微卫星(AT){6,}表示ATATATATATAT....;或者从mRNA中预测ORF,ATG(?:\w{3})+T(?:AG|AA|GA),随后对每个序列取最长的一个最长ORF即是。当然,也可以使蛋白的某些序列模式...
如果确实不了解正则表达式,其实还是比较简单,大概可能知道

ATCG 对应的就是 四个碱基,ATCG
[ATCG]  对应的是 一个碱基,A或T或C或G
[^AT]  对应的是 一个碱基,但不会是A或者T
(AT)  对应的是 两个碱基,把AT定位一个单元
(AT){6} 对应的是 2x6,一共 12 个碱基,也就是AT重复正好6次,如ATATATATATAT
(AT){,6} 对应的是(AT)重复不多于6次,如AT, ATAT, ATATAT, ATATATAT, ATATATATAT, ATATATATATAT
### 之前有笔误,谢谢“微信-潜”,20191018
(AT){6,} 对应的是(AT)重复不低于6次, ATATATATATAT, ATATATATATATATATATATATAT..... 
等等....

Overlap参数,大体对应的就是模式之间是否允许Overlap, 比如ATG\w{111}TGA,那么在这个模式捕获出来的序列中间是否有可能出现新的ATG?
Max Sequence Pattern(kb),查找出来的片段大小,不能长于这个长度,如2即2kb。这个参数事实上,也对模式查找存在一定的影响。对于Overlap模式的,没有影响。对于不Overlap的,可能会丢失一小部分模式。

当所有参数设置好之后,设置输出文件,注意补齐文件名。随后点击Start即可。

输出结果

输出的结果,主要分为四列



分别是:

  1. 序列ID
  2. 起始坐标
  3. 终止坐标
  4. 匹配到模式的序列

其实是可以支持多个模式一次查找的,但我确实没有感觉到这个需求的大小,所以暂时也懒得支持。

做一个有趣的事情( 注意,后续在朋友的提醒下,这个操作不适合预测着色粒)

既然,我们写了这么一个功能,那么我突然想到可以拿来做有趣的事情。有关注公众号历史推文的朋友,应该了解到,我们课题组与福建农张积森老师课题组存在较多的交流与合作。我参与了博士导师与张老师的众多合作项目中某物种基因组分析的学习。在他们交流的过程中,我了解到,在张老师发表的甘蔗基因组文章中,AAACCT重复序列可用于预测着丝粒位置。(20190503,发表后一周内,收到朋友提醒,AAACCT似乎应该是端粒的motif....)


于是,我们可以做一下试试。

第一步,挖掘出拟南芥基因组中,所有AAACCT位点位置(我发现,直接设置10个重复位置,直接没有分析结果)

第二步,生成染色体长度文件



打开并做以下调整



变成以下并保存

第三步,打开并整理AAACCT模式的文件


替换第四列为,全部为1

并保存文件

第四步,使用Amazing Super Circos,进行可视化


似乎只有两个染色体能够很好的看到峰值,

对比拟南芥基因组文章图片

可以看到,似乎Chr1和Chr4基本可以对应上。考虑到,可能是Circos Binning时窗口大小的问题,做微调,设置窗口为1kb,似乎没有太大变化

换成我们手上在做的基因组



恩,看起来,似乎效果更好一些。只是,这些位置是不是着丝粒位置?
顺手加一圈基因密度图....恩...



好像可能有点用。不过AAACCT重复的,自然基因也会少,这个可能也不一定是着丝粒位置。

写在最后

每个人,总是要越活越明白。时间与精力是有限的,所以慢慢的目标就会变得明确。两个事情是需要兼顾的:

  1. 做好手上在做的
  2. 不断提升自己的能力

题外

课题组每年暑期有内部生信入门培训,主要是对实验室新生开展(以及湿实验为主的成员)培训。一直有收到其他课题组想要了解我们课题组生信数据分析的想法。故,在博导的提议和课题组的讨论后,我们近期计划,在本年度暑期(7~8月份之间)对外增设生信基础培训名额10枚(前面每年只是课题组内培训,而不对外)。具体请见https://mp.weixin.qq.com/s/OtmeTErd9f9rvjJPtBKjMw

欢迎访问本课题组网站

园艺植物小分子RNA与基因组研究-夏瑞课题组

课题组主页:http://xialab.scau.edu.cn/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容