用到的程序,samtools和bedtools,都用conda安装。
目标是将第一次比对的bam中unmapped reads提取出来,并转换成fastq进行下次比对。
第一步:提取unmapped reads(格式bam)
用到samtools view
选项:-b #表示生成bam格式
-f #“The -f options flags to keep the reads 'Only output alignments with all bits set in INT present in the FLAG field'” 保留你选择的reads
-F #"The -F option flags to remove the reads 'Only output alignments with all bits set in INT present in the FLAG field'" 去除你选择的reads
示例
samtools view -b -F 4 -f 8 file.bam > onlyThisEndMapped.bam
samtools view -b -F 8 -f 4 file.bam > onlyThatEndMapped.bam
samtools view -b -F12 file.bam > bothEndsMapped.bam
4,8,12这些参数代表你选择的reads,具体参见 http://broadinstitute.github.io/picard/explain-flags.html
我是需要提取 unmapped reads,使用 -f 4可以保留所有的unmapped reads
samtools view -b -f 4 file.bam > file_unmapped.bam
但这里面包含的reads包括所有paired和 unpaired,如果只想要paired unmapped reads,可以使用 -f 13
提取出 unmapped.bam后,要把他转化为fastq,可使用bedtools的 “bamToFastq”实现
注意:bam要先排序! 不然会一直报错,错误的原因就是在read1附近找不到对应的read2.。我使用samtools以名称排序。
指令 : samtools sort -n input.bam output.bam
然后就是bamToFastq了 :bamToFastq -i < input.bam > -fq < file1.fq > -fq2 < file2.fq >