（日常记录）使用TBtools批量提取基因组中的CDS、UTR、exon等

在分析基因组数据时，我们有时候只需要基因组中某个部位的信息，比如涉及编码蛋白功能就只需要CDS序列，研究miRNA与mRNA互作时，只需要3‘UTR序列，那么如何简单快速的得到基因组中的目标序列呢？今天就要用一个好用的数据分析工具TBtools。

一、准备基因组注释文件以及序列文件：1、可从NCBI、ENSEMBL、GENCODE等数据库中下载，本文以ensembl为例，打开ensembl数据库，进入Downloads，点击Downloading with rsync， Ensembl FTP site 选择发布的基因组版本，以最新版本99为例

2、选择fasta和gff3，选择物种，下载基因组序列文件和gff注释文件。比如homo，在序列下载时选择primary或top均可，不要选rm和soft，会降低比对率（下载工具就不多说啦）

二、TBtools序列提取

1、准备好基因注释文件gff和序列文件fasta后，下载TBtools：https://github.com/CJ-Chen/TBtools，安装。

2、打开TBtools，进入sequence toolkit，GFF3/GTF Manipulate，GXF Sequences Extract

3、首先，分别导入GFF文件和FASTA序列文件，再点击initialize，初始化文件。初始化完成后，会跳出一个帮助用户选择feature的框，可直接关掉跳过（不懂GFF注释结构的童鞋可以看一下哈哈），然后软件的Feature Tag就会出现以下可供选择的序列区域啦，包括mRNA，Lnc_RNA，CDS、3’UTR等，可自行选择提取。

注意：因为TBtools有特定的函数程序，所以提取之前需提前设定好输出的文件名，也就是在set an output fasta file出，除了选择输出目录外。还需手动添加需要输出的文件名(.fa)，最后，Start就可以啦，几分钟之后就可以在输出目录下找到你的序列了。是不是特别简单？^-^

最后编辑于：2020.07.24 18:52:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

（日常记录）使用TBtools批量提取基因组中的CDS、UTR、exon等

友情链接更多精彩内容