在讲具体用法之前,先来讲一下为什么要合并bam文件
原因:假设我们有10个样本,大部分样本的测序量为2G(随便说的),但有一两个样本他们测序量为几百M,这个 时候样本就要重新测序,一个样本测序两次,那它在SRA数据库里面就有两个SRR号,但是他们对应的是 同一个样本。在进行数据处理得到bam文件后,要对这些对应同一个样本的bam文件进行合并。
如何合并bam文件:
合并bam文件需要用到samtools,它有个选项merge可以合并bam文件。
在合并bam文件文件之前要对bam文件进行排序(注意:按read 名字排序,不是按染色体位置排序,如果按染色体位置排序是不能合并bam文件的)
具体用法:
众多选项里面我们最常用的就是 -@(给多少线程,需要根据自己服务器当时剩余内存而定),剩下选项大家有需要自行添加,这里就不过多解读
Usage:samtools merge -@ 5 out.bam sorted1.bam sorted2.bam ......
在这里多说一句,大家合并好bam文件之后还可能要进行排序建索引,虽然合并好的bam文件是有顺序的,但是他们是按read名字进行排序的,bam文件必须要按照染色体位置进行排序才能建立索引,故大家还得再对合并好的bam文件按照染色体位置进行排序,之后建立索引。