bam文件的排序方式针对不同的应用场景,如果不能了解它将会极大影响计算的效率,本文简单介绍如何快速查看bam文件的染色体排序方式。
首先我们可以查看文件的元信息,使用下面命令:
samtools view -H sample.bam | grep SO
命令结果会输出类似下面的信息:
@HD VN:1.3 SO:coordinate
(实际上还有额外一些信息,注意输出的头几行)
这里标注了该bam文件是已经按照染色体坐标系统排好序了的。
如果想要快速查看文件里的排序,使用下面命令:
samtools view -H sample.bam | grep SQ | cut -f 2 | awk '{ sub(/^SN:/, ""); print;}'
查看fasta文件染色体顺序:
grep ">" reference.fa
查看vcf文件染色体排序:
grep -v "^#" snps.vcf | cut -f 1 | uniq