给FASTA文件建立索引1:用于查找

给FASTA文件建立索引的目的是为了更快速的访问序列文件的某一特定的内容。比如,可以通过指定基因组中的具体某个染色体上的某段位置,来找到其对应的序列。

实现方法是通过samtools工具中的faidx命令来执行。

首先需要对原始的FASTA文件生成索引文件:

```

samtools faidx <文件名>

```

之后就会在相应的目录中生成一个与FASTA同名,并以.fai结尾的文件,这个文件即是对应的索引文件。

然后 我们就可以通过位置进行查找了:

```bash

samtools faidx <in.fa> <region>

```

<in.fa>即是FASTA 文件名,<region>的格式是染色体号:其实碱基位置-结束碱基位置

如:

```bash

samtools faidx Mus.....8.fa 8:123407082-123410744 

```

即是Mus..8.fa这个FASTA文件中,找8号染色体上,123407082到123410744位置之间的碱基序列。

支持同时写多个序列<region>同时查找。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容