samtools-faidx用法

faidx:

samtools faidx xxx.fa

能够对fasta 序列建立一个后缀为.fai 的文件

该命令对输入的fasta序列有一定要求:对于每条序列,除了最后一行外, 其他行的长度必须相同,  

>one

ATGCATGCATGCATGCATGCATGCATGCAT

GCATGCATGCATGCATGCATGCATGCATGC

ATGCAT

>two another chromosome

ATGCATGCATGCAT

GCATGCATGCATGC

最后生成的.fai文件如下, 共5列,\t分隔;

one 66 5 30 31

two28981415

第一列 NAME   :   序列的名称,只保留“>”后,第一个空白之前的内容;

第二列 LENGTH:   序列的长度, 单位为bp;

第三列 OFFSET :   第一个碱基的偏移量, 从0开始计数,换行符也统计进行;

第四列 LINEBASES : 除了最后一行外, 其他代表序列的行的碱基数, 单位为bp;

第五列 LINEWIDTH : 行宽, 除了最后一行外, 其他代表序列的行的长度, 包括换行符, 在windows系统中换行符为\r\n, 要在序列长度的基础上加2;

提取序列:

提取序列:

samtools faidx input.fa chr1 > chr1.fa

samtools faidx input.fa chr1:100-200 > chr1.fa

对于UCSC的chr肯定是可以用的:

>chr1

>chr2

...

对于ensemble呢?可行

>1 dna:chromosome chromosome:GRCh38:1:1:248956422:1 REF

>2 dna:chromosome chromosome:GRCh38:2:1:242193529:1 REF

...

# samtools faidx input.fa 1 > chr1.fa

# head -n  2 chr1.fa

>1

ATCG...

samtools faidx input.fa 1 2 3 > chr1+2+3.fa

# samtools faidx input.fa chr1 chr2 chr3 > chr1+2+3.fa 

提取all:

samtools faidx GRCh37.p13.genome.fa chr1 chr2 chr3 chr4 chr5 chr6 chr7 chr8 chr9 chr10 chr11 chr12 chr13 chr14 chr15 chr16 chr17 chr18 chr19 chr20 chr21 chr22 chrX chrY > GRCh37.chr.fa

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容