五秒-预测序列完整的ORF（开放阅读框），可能这是最快最简的解法

写在“写在前面”的前面

既然你说我是标题党，那我就证明给你看，我就是个标题党，是或不是，我说了算

写在前面

《-零命令行-生信下游数据分析》的第三帖主题，定为ORF预测。
可能只有做下游数据分析，或者湿实验的朋友才会发现，有一个似乎还是常见的需求场景，那么就是：

有一个差异表达的转录本，那么他可能的编码序列是什么？是否有完整的可靠的开放阅读框
我从NCBI上查到了某个基因，拿到了他的mRNA/cDNA序列，那么如何快速获得他的ORF？
3....

事实上，上面的场景2，目前是可以找到一些插件，来完成的，比如pubmedly这个chrome的插件。但是

很多时候，序列并没有上传到NCBI，所以只能自己搞定；
更多时候，我们并不是不想用NCBI或者其他基因组数据库，而是网速磨去了我们所有的耐心，尤其是等到网页加载的时候，这个在使用NCBI getORF体现尤其明显。

速解

准备序列

（这个不能算时间哈）要预测ORF，所以，首先我们要有一个序列，这里提供一个无参考转录组组装的Unigene，没错，为了阅读这个推文，你的手机流量总量即将为此减少几个Kb

TATTTTTCCGTTTTATTCTCCGAAATAGTTTCACTTGATGAATACAATGGAAATACGAAC
CATGGCCTGGGAGTTGCTTTTGCTGAATCTTGTCATTCATCCATTTTCTGGAGTATTGGC
TAATATCGAAGGTGATGCGCTGGCAAGTTTTGCAAACAATTTGAATGATCCAAATAATGT
GCTGCAAAGCTGGGATTCAAATCTTGTTAATCCATGCACATGGTTTCATGTTTCATGCAA
TACTGCTGATAATGTATATCGAATAGATCTAGGCAACACGAATCTTTCTGGAAAACTAGT
TCCCCAACTTGGTGATCTGAAGAGTCTACAATACTTGGAGCTGTACGACAACAATATTAG
TGGGACGATTCCATCTGAGCTTGGAAAATTGAAAAAACTAGTCAGTTTGGATTTGTATCT
AAATAAAATTACAGGCAGAATACCAGATTCGTTGGGCAAGCTATCAAATTTGCGCTTCCT
CCGGCTTAACAACAATAGCTTGTCTGGAACAATTCCGATGCCTCTAACCAACATGAATGC
ACTACAAGTTCTGGATCTGTCACACAACGAACTCCAGGGAGAAGTTCCTTCAAATGGATC
TTTTTCCCTATTTACCCCTATCAGTTTTGCAAACAACCCAAATTTGTGTGGGCCTGCTAC
TTTGAAACCATGTCCGAATTCTCCACCATTCTCTCCACCACCCCCTTTAAATCCACAGAC
TTCACCTTTGTCTCGAGGAAGTAGTGCCGGTAGCACTGGAGCTATTGCTGGCGGAGTTGC
TGCAGGAGCTGCTTTGCTATTTGCTGTTCCTGCAATTTGGTTTGCTTGGTGGCATCGTAG
TAAACCACAAGAATATTTCTATGATGTACCTGCTGAAGAAGAGGATCCTCATGTTCATTT
AGGTCAACTCAAAAGATTTTCATTGCGAGAACTTCTGGTAGCAACAGATGGTTTTAGCAA
TAAGAACATTTTGGGTAAAGGTGGTTTTGGAAAAGTATACAAAGGGCGACTAGCTGATGG
TAGGTTAGTAGCTGTTAAAAGACTAAAAGAAGAGCGAACACCAGGTGGTGAGCTTCAATT
TCAGACAGAAGTTGAGATTATCAGCATGGCAGTACACCGTAATTTACTATGCCTTCTTGG
ATTTTGCATGAGTCCAACTGAACGGTTGCTTGTCTATCCTTATATGGCTAATGGCAGTGT
TGCATCTTGTTTACGAGAACGAACTTCATCAACACCTCCACTAGATTGGTCGATACGTAA
AAGTATAGCATTAGGTGCTGCAAGAGGACTGTCATATCTGCATGAACATTGCAATCCGAT
AATAATTCATCGAGATATAAAAGCTGCAAACATCTTATTGGATGAAGAGTTCGTAGCTGT
TGTTGGAGACTTTGGTATGGCAAAGTTGATGAATTACAAAGATACTCATGTGATAACAGG
AATAAAAGGAACGATGGGTCATATTGCTCCTGAGTATTTGACAACTGGGAAATCTTCTGA
AAAGACAGATGTTTTCGGGTATGGGATAATGCTTCTTGAGCTCATCACTGGACAACGAGC
TTTGGATGTTTGTCGTCCTACAAATGACGATGGCTACAATGTCATGTTGTTGGATTGGGT
CAAAGGACTGCTACAAGCGAGAAAATTGGAAATGATAGTGGATCCAAGCCTTGAAAAAAA
TTACACAGAAGCAGAGGTGGAATCTCTCATTCAAATCGCCCTTTTATGCAGTCATGGGGA
TGCTGCAGAGAGACCAAAAATGTCGGAAGTAGTGAGAATGCTGGAAGGAGACGGACCTGC
AGAAAGATGGGAAGAATGGCAGAAGATTGAAGTGGTTAAACGAGAATCACAAACCAGTGA
TAATAGTGGTAAAAGGGAATGGATTTTTGATTCAACTCATAACCTAGTTGCCGTTGAATT
ATCAGGTCCTAGATGACATTTTTACTTTCAAACTAGAAGCGTCTTATTGCAACTTAATTT
GAAGATCGAAGGTTACAGTGTAAATTGTGCGTTT

五秒完成

接下来是大招，
首先，你需要在两秒内找到TBtools图标，打开TBtools

image.png

然后你需要在一秒之内，移动鼠标，找到完成ORF预测工具，并点他，“Sequence Toolkits =》 ORF Prediction =》 Get Complete ORF(Open Reading Frame) ”

image.png

随后，你需要在一秒内，黏贴序列并点击Start

image.png

此时，你已经完成了预测，很明显，坐标一共是六行，分别对应了一个核酸序列的六个读码框（不知道的是啥的，最好百度），
还剩下一秒，此时你需要思维敏捷，头脑清醒，鼠标移动到最长的灰色框，用手上的鼠标，点他，

image.png

于是你获得了预测出来最长ORF（是否正确，你需要做的是拿去blast到某个参考物种的蛋白序列库，或者可能你还是要去NCBI blast....）。当然，从某个角度来说，

对于一个‘有完整CDS’的具有蛋白编码能力的mRNA序列来说，最长的ORF，往往就是真实的读码框，毕竟自然界是不喜欢浪费的。

写在后面

今日一推，内容还是比较简单。近来公众号推文阅读量少得可怜。可能是因为内容太简单？
But，往往看起来简单的分析，其背后的逻辑反而更难。写这个ORF预测功能，当时至少费了我一个晚上...感兴趣的可以自行尝试。经过多次测试，预测结果与旧版（新版的界面太好看，不知道怎么看）的NCBI getORF结果完全相同，当然，我不知道该软件的运行逻辑。

image.png

写在“写在后面”的后面

三两好友相约，重操旧业，生信-脚本-代写，主要看实现难度收费，具体请转淘宝店
https://shop104308918.taobao.com/shop/view_shop.htm?spm=a313o.201708ban.category.d53.64f0197afIp9MJ&mytmenu=mdianpu&user_number_id=287278484
TBtools课程正在更新，更新后价格为￥128
国庆前后开设《无需一行命令-在windows下-完成基因家族》课程，价格为￥500，限招25人，感兴趣，请转淘宝店
https://shop104308918.taobao.com/shop/view_shop.htm?spm=a313o.201708ban.category.d53.64f0197afIp9MJ&mytmenu=mdianpu&user_number_id=287278484
TBtools专利已基本完成，请在商业化运作，尤其是收费培训中使用TBtools的公司或团队，停止侵权操作。