给FASTA文件建立索引的目的是为了更快速的访问序列文件的某一特定的内容。比如,可以通过指定基因组中的具体某个染色体上的某段位置,来找到其对应的序列。
实现方法是通过samtools工具中的faidx命令来执行。
首先需要对原始的FASTA文件生成索引文件:
```
samtools faidx <文件名>
```
之后就会在相应的目录中生成一个与FASTA同名,并以.fai结尾的文件,这个文件即是对应的索引文件。
然后 我们就可以通过位置进行查找了:
```bash
samtools faidx <in.fa> <region>
```
<in.fa>即是FASTA 文件名,<region>的格式是染色体号:其实碱基位置-结束碱基位置
如:
```bash
samtools faidx Mus.....8.fa 8:123407082-123410744
```
即是Mus..8.fa这个FASTA文件中,找8号染色体上,123407082到123410744位置之间的碱基序列。
支持同时写多个序列<region>同时查找。