基因组测序技术的发展使得生物序列日益增多,从大量序列数据中挖掘有用的信息成为许多研究领域的重要手段,这就使得我们必须掌握一些序列处理的方法。其中,FASTA文件是基因组最为常见的文件格式之一。然而,庞大的基因组数据让FASTA文件的处理变得非常棘手,如多基因的串联合并、序列的提取或删除、序列ID检索与替换等。因此,开发FASTA文件批量处理软件工具在生物信息研究中显得尤其重要。近些年,经过生信工作者的不懈努力,许多FASTA文件批量处理工具应运而生。熟悉和掌握这些工具的使用,可为广大科研人员提供便捷。
FASTA文件处理工具主要分为两类:Windows系统的界面化版本以及Linux系统的命令行版本。界面化版本的优点就是操作方便,无需任何编程以及Linux系统管理能力,点点鼠标就可以完成分析。而命令行版本的优点则是可以大批量并行计算,缩短分析时间,缺点就是需要编程以及Linux系统管理基础。目前,界面化程序主要有TBtools以及FasParser;命令行版本主要包括seqmagick、seqkit、seqtk、fasta_utilities、FASTAX-toolkit、fastascripts以及Reseqtools等。下面就简单地介绍几款软件,详细使用方法可自行Google。
FasParser
- 提取及重命名fasta ID
- 统计fasta序列长度信息
- DNA翻译为AA
- 鉴定指定支系特异氨基酸或核苷酸位点
- 提取4倍简并位点、第1、2、3位密码子
- 根据ID串联序列
- 根据ID或者关键词提取序列
- 过滤序列
TBtools
- 根据GFF/GTF以及基因组文件获取CDS、protein序列
- fasta序列与区段提取
- fasta序列过滤
- fasta序列信息统计
- 序列反向互补
- ID简化
- ID重命名
- ID增加前缀
- fasta文件合并与分割
- 获取基因组最长CDS
- 序列模式定位
命令行工具
Seqkit
01. Sequence and subsequence
- seq 转换序列(反向、互补、提取ID)
- subseq 按区域/GTF/BED获取子序列,包括侧翼序列
- sliding 序列滑窗
- stats 序列统计
- fadix 建立索引,提取序列
02. Format conversion
- fx2tab 将fasta转换为表格形式,统计长度以及GC含量
- translate 将DNA翻译为蛋白
03. Searching
- grep 通过id/name/sequence/sequence motifs搜索序列,允许不匹配
- locate 定位子序列/基序,允许不匹配
- fish 使用局部对齐在较大序列中寻找短序列
04. Set operations
- rmdup 通过id/name/sequence删除重复序列
- common 通过id/name/sequence查找多个文件的公共序列
- split 按id/seq区域/大小/部分将序列拆分
05. Edit
- replace 通过正则匹配替换序列名
- rename 重命名重复的id
- concat 串联序列
- mutate 编辑序列(点突变、插入、删除)
06. Ordering
- sort 排序