在分析基因组数据时,我们有时候只需要基因组中某个部位的信息,比如涉及编码蛋白功能就只需要CDS序列,研究miRNA与mRNA互作时,只需要3‘UTR序列,那么如何简单快速的得到基因组中的目标序列呢?今天就要用一个好用的数据分析工具TBtools。
一、准备基因组注释文件以及序列文件:1、可从NCBI、ENSEMBL、GENCODE等数据库中下载,本文以ensembl为例,打开ensembl数据库,进入Downloads,点击Downloading with rsync, Ensembl FTP site 选择发布的基因组版本,以最新版本99为例
2、选择fasta和gff3,选择物种,下载基因组序列文件和gff注释文件。比如homo,在序列下载时选择primary或top均可,不要选rm和soft,会降低比对率(下载工具就不多说啦)
二、TBtools序列提取
1、准备好基因注释文件gff和序列文件fasta后,下载TBtools:https://github.com/CJ-Chen/TBtools,安装。
2、打开TBtools,进入sequence toolkit,GFF3/GTF Manipulate,GXF Sequences Extract
3、首先,分别导入GFF文件和FASTA序列文件,再点击initialize,初始化文件。初始化完成后,会跳出一个帮助用户选择feature的框,可直接关掉跳过(不懂GFF注释结构的童鞋可以看一下 哈哈),然后软件的Feature Tag就会出现以下可供选择的序列区域啦,包括mRNA,Lnc_RNA,CDS、3’UTR等,可自行选择提取。
注意:因为TBtools有特定的函数程序,所以提取之前需提前设定好输出的文件名,也就是在set an output fasta file出,除了选择输出目录外。还需手动添加需要输出的文件名(.fa),最后,Start就可以啦,几分钟之后就可以在输出目录下找到你的序列了。是不是特别简单?^-^