格式
pileup格式描述了染色体上每个位置的碱基信息, 可以用来 SNP/indel calling, 也可以直接用眼睛看一下排列的情况。
pileup格式文件包括6列
第一列:参考序列名;
第二列:碱基位置;
第三列:参考碱基;
第四列:比对上的reads;
第五列:比对情况;
第六列:碱基质量,与fastq文件一样用ASCII码表示。
其中第五列比对情况的表示方法较为复杂,用多种表达了每一个碱基的比对情况:
符号 | 含义 | 符号 | 含义 |
---|---|---|---|
. | 匹配正链 | , | 匹配负链 |
ATCGN | 正链上的不匹配 | actin | 负链上的不匹配 |
^ | 该条read的第一个碱基 | $ | 该条read的最后一个碱基 |
正则式:+[0-9][ATCGN] | 在该位点后插入的碱基 | 正则式:+[0-9][atcgn] | 在该位点后缺失的碱基 |
* | 模糊碱基 |
获取
Pileup 文件一般是由samtools从sorted bam 文件生成:
samtools mpileup -f XX.fa -Q 15 -q 20 input.sorted.bam -o output.pileup