写在“写在前面”的前面
既然你说我是标题党,那我就证明给你看,我就是个标题党,是或不是,我说了算
写在前面
《-零命令行-生信下游数据分析》的第三帖主题,定为ORF预测。
可能只有做下游数据分析,或者湿实验的朋友才会发现,有一个似乎还是常见的需求场景,那么就是:
- 有一个差异表达的转录本,那么他可能的编码序列是什么?是否有完整的可靠的开放阅读框
- 我从NCBI上查到了某个基因,拿到了他的mRNA/cDNA序列,那么如何快速获得他的ORF?
3....
事实上,上面的场景2,目前是可以找到一些插件,来完成的,比如pubmedly这个chrome的插件。但是
- 很多时候,序列并没有上传到NCBI,所以只能自己搞定;
- 更多时候,我们并不是不想用NCBI或者其他基因组数据库,而是网速磨去了我们所有的耐心,尤其是等到网页加载的时候,这个在使用NCBI getORF体现尤其明显。
速解
准备序列
(这个不能算时间哈)要预测ORF,所以,首先我们要有一个序列,这里提供一个无参考转录组组装的Unigene,没错,为了阅读这个推文,你的手机流量总量即将为此减少几个Kb
TATTTTTCCGTTTTATTCTCCGAAATAGTTTCACTTGATGAATACAATGGAAATACGAAC
CATGGCCTGGGAGTTGCTTTTGCTGAATCTTGTCATTCATCCATTTTCTGGAGTATTGGC
TAATATCGAAGGTGATGCGCTGGCAAGTTTTGCAAACAATTTGAATGATCCAAATAATGT
GCTGCAAAGCTGGGATTCAAATCTTGTTAATCCATGCACATGGTTTCATGTTTCATGCAA
TACTGCTGATAATGTATATCGAATAGATCTAGGCAACACGAATCTTTCTGGAAAACTAGT
TCCCCAACTTGGTGATCTGAAGAGTCTACAATACTTGGAGCTGTACGACAACAATATTAG
TGGGACGATTCCATCTGAGCTTGGAAAATTGAAAAAACTAGTCAGTTTGGATTTGTATCT
AAATAAAATTACAGGCAGAATACCAGATTCGTTGGGCAAGCTATCAAATTTGCGCTTCCT
CCGGCTTAACAACAATAGCTTGTCTGGAACAATTCCGATGCCTCTAACCAACATGAATGC
ACTACAAGTTCTGGATCTGTCACACAACGAACTCCAGGGAGAAGTTCCTTCAAATGGATC
TTTTTCCCTATTTACCCCTATCAGTTTTGCAAACAACCCAAATTTGTGTGGGCCTGCTAC
TTTGAAACCATGTCCGAATTCTCCACCATTCTCTCCACCACCCCCTTTAAATCCACAGAC
TTCACCTTTGTCTCGAGGAAGTAGTGCCGGTAGCACTGGAGCTATTGCTGGCGGAGTTGC
TGCAGGAGCTGCTTTGCTATTTGCTGTTCCTGCAATTTGGTTTGCTTGGTGGCATCGTAG
TAAACCACAAGAATATTTCTATGATGTACCTGCTGAAGAAGAGGATCCTCATGTTCATTT
AGGTCAACTCAAAAGATTTTCATTGCGAGAACTTCTGGTAGCAACAGATGGTTTTAGCAA
TAAGAACATTTTGGGTAAAGGTGGTTTTGGAAAAGTATACAAAGGGCGACTAGCTGATGG
TAGGTTAGTAGCTGTTAAAAGACTAAAAGAAGAGCGAACACCAGGTGGTGAGCTTCAATT
TCAGACAGAAGTTGAGATTATCAGCATGGCAGTACACCGTAATTTACTATGCCTTCTTGG
ATTTTGCATGAGTCCAACTGAACGGTTGCTTGTCTATCCTTATATGGCTAATGGCAGTGT
TGCATCTTGTTTACGAGAACGAACTTCATCAACACCTCCACTAGATTGGTCGATACGTAA
AAGTATAGCATTAGGTGCTGCAAGAGGACTGTCATATCTGCATGAACATTGCAATCCGAT
AATAATTCATCGAGATATAAAAGCTGCAAACATCTTATTGGATGAAGAGTTCGTAGCTGT
TGTTGGAGACTTTGGTATGGCAAAGTTGATGAATTACAAAGATACTCATGTGATAACAGG
AATAAAAGGAACGATGGGTCATATTGCTCCTGAGTATTTGACAACTGGGAAATCTTCTGA
AAAGACAGATGTTTTCGGGTATGGGATAATGCTTCTTGAGCTCATCACTGGACAACGAGC
TTTGGATGTTTGTCGTCCTACAAATGACGATGGCTACAATGTCATGTTGTTGGATTGGGT
CAAAGGACTGCTACAAGCGAGAAAATTGGAAATGATAGTGGATCCAAGCCTTGAAAAAAA
TTACACAGAAGCAGAGGTGGAATCTCTCATTCAAATCGCCCTTTTATGCAGTCATGGGGA
TGCTGCAGAGAGACCAAAAATGTCGGAAGTAGTGAGAATGCTGGAAGGAGACGGACCTGC
AGAAAGATGGGAAGAATGGCAGAAGATTGAAGTGGTTAAACGAGAATCACAAACCAGTGA
TAATAGTGGTAAAAGGGAATGGATTTTTGATTCAACTCATAACCTAGTTGCCGTTGAATT
ATCAGGTCCTAGATGACATTTTTACTTTCAAACTAGAAGCGTCTTATTGCAACTTAATTT
GAAGATCGAAGGTTACAGTGTAAATTGTGCGTTT
五秒完成
接下来是大招,
首先,你需要在两秒内找到TBtools图标,打开TBtools
然后你需要在一秒之内,移动鼠标,找到完成ORF预测工具,并点他,“Sequence Toolkits =》 ORF Prediction =》 Get Complete ORF(Open Reading Frame) ”
随后,你需要在一秒内,黏贴序列并点击Start
此时,你已经完成了预测,很明显,坐标一共是六行,分别对应了一个核酸序列的六个读码框(不知道的是啥的,最好百度),
还剩下一秒,此时你需要思维敏捷,头脑清醒,鼠标移动到最长的灰色框,用手上的鼠标,点他,
于是你获得了预测出来最长ORF(是否正确,你需要做的是拿去blast到某个参考物种的蛋白序列库,或者可能你还是要去NCBI blast....)。当然,从某个角度来说,
对于一个‘有完整CDS’的具有蛋白编码能力的mRNA序列来说,最长的ORF,往往就是真实的读码框,毕竟自然界是不喜欢浪费的。
写在后面
今日一推,内容还是比较简单。近来公众号推文阅读量少得可怜。可能是因为内容太简单?
But,往往看起来简单的分析,其背后的逻辑反而更难。写这个ORF预测功能,当时至少费了我一个晚上...感兴趣的可以自行尝试。经过多次测试,预测结果与旧版(新版的界面太好看,不知道怎么看)的NCBI getORF结果完全相同,当然,我不知道该软件的运行逻辑。
写在“写在后面”的后面
三两好友相约,重操旧业,生信-脚本-代写,主要看实现难度收费,具体请转淘宝店
https://shop104308918.taobao.com/shop/view_shop.htm?spm=a313o.201708ban.category.d53.64f0197afIp9MJ&mytmenu=mdianpu&user_number_id=287278484TBtools课程正在更新,更新后价格为 ¥128
国庆前后开设《无需一行命令-在windows下-完成基因家族》课程,价格为 ¥500,限招25人,感兴趣,请转淘宝店
https://shop104308918.taobao.com/shop/view_shop.htm?spm=a313o.201708ban.category.d53.64f0197afIp9MJ&mytmenu=mdianpu&user_number_id=287278484TBtools专利已基本完成,请在商业化运作,尤其是收费培训中使用TBtools的公司或团队,停止侵权操作。