我用到的Samtools介绍

记录一下我用到的samtools的用法。

samtools的说明文档：http://samtools.sourceforge.net/samtools.shtml

bam文件优点：bam文件为二进制文件，占用的磁盘空间比sam文本文件小；利用bam二进制文件的运算速度快。

首先需要意识到的是samtools是一个非常强大的工具，想要熟练的使用它，还需要不断的摸索。

samtools的用法

（1）View

samtools view -bS abc.sam > abc.bam #将sam文件转换为bam文件

参数：

-b bam 输出bam

-S sam 输入sam

-@ 线程

在比对完成的sam文件中，包含着mapped reads 和unmapped reads

$ samtools view -bF 4 abc.bam > abc.F.bam #提取没有比对到参考序列上的比对结果，步包含标签

$ samtools view -bF 12 abc.bam > abc.F12.bam #提取paired reads中两条reads都比对到参考序列上的比对结果，只需要把两个4+8的值12作为过滤参数即可

$ samtools view -bf 4 abc.bam > abc.f.bam #提取没有比对到参考序列上的比对结果，包含标签

$ samtools view abc.bam scaffold1 > scaffold1.sam #提取bam文件中比对到caffold1上的比对结果，并保存到sam文件格式

$ samtools view abc.bam scaffold1:30000-100000 $gt; scaffold1_30k-100k.sam #提取scaffold1上能比对到30k到100k区域的比对结果

$ samtools view -T genome.fasta -h scaffold1.sam > scaffold1.h.sam #根据fasta文件，将 header 加入到 sam 或 bam 文件中

samtools的view不就可以进行格式转换，还可以进行数据的提取

例：提取1号染色体上1234~123456区域的以对read

samtools view SRR3589957_sorted.bam chr1:1234-123456| head

samtools view SRR3589957_sorted.bam chr1:1234-123456 > sub.bam

使FLAG更具可读性

samtools view -X sample.sorted.bam | head -n 5

计算总的比对数量

samtools view sample.sorted.bam | wc -l

显示标题，-H选项

samtools view -H sample.sorted.bam

将bam文件转换为sam文件

samtools view -h abc.bam > abc.sam

（2）Sort

samtools sort对bam文件进行排序，不能对sam文件进行排序。

以leftmost coordinates的方式对比对结果进行排序，或者使用-n参数以read名称进行排序。将会添加适当的@HD-SO排序顺序标头标签或者如果有必要的话，将会更新现存的一个排序顺序标头标签。sort命令的输出默认是标准输出写入，或者使用-o参数时，指定bam文件输出名。sort命令还会在内存不足时创建临时文件tmpprefix.%d.bam。

也就是说：samtools的排序方式有两种（常用）

默认方式，按照染色体的位置进行排序

samtools sort test.bam default

参数-n则是根据read名进行排序。

samtools sort -n test.bam sort_left

usage: samtools sort [-l level] [-m maxMem] [-o out.bam] [-O format] [-n] [-T tmpprefix] [-@ threads] [in.sam|in.bam|in.cram]

例如：samtools sort abc.bam abc.sort

samtools sort -O bam -@ 2 SRR1909070.bam -o SRR1909070.sorted.bam

RNA-seq 的数据比对结果 BAM 文件使用 samtools 进行 sort 之后文件压缩比例变化会比DNA-seq 更甚。另外，samtools 对 BAM 文件进行排序之后那些没有比对上的 reads 会被放在文件的末尾。

参数：

-l INT 设置输出文件压缩等级。0-9，0是不压缩，9是压缩等级最高。不设置此参数时，使用默认压缩等级；

-m INT 设置每个线程运行时的内存大小，可以使用K，M和G表示内存大小。

-n 设定排序方式按short reads的ID排序。默认下是按序列在fasta文件中的顺序（即header）和序列从左往右的位点排序。

-o FILE 设置最终排序后的输出文件名；

-O FORMAT 设置最终输出的文件格式，可以是bam，sam或者cram，默认为bam；

-T PREFIX 设置临时文件的前缀；

-@ INT 设置排序和压缩是的线程数量，默认是单线程。

（3）index

samtools index 建立索引，在建立索引之前应该先对bam文件进行排序。必须对bam文件进行默认情况下的排序后，才能进行index。否则会报错。

建立索引后将产生后缀为.bai的文件，用于快速的随机处理。很多情况下需要有bai文件的存在，特别是显示序列比对情况下。比如samtool的tview命令就需要；gbrowse2显示reads的比对图形的时候也需要。

samtools index abc.sort.bam

如果想要建立索引的，具体可以看看比对的内部的算法，链接具体是怎么建立索引的

建立索引的目的应该是为了提高比对的效率

以下两种命令结果一样

$ samtools index abc.sort.bam

$ samtools index abc.sort.bam abc.sort.bam.bai

（4）flagstat

samtools flagstat 给出BAM文件的比对结果

samtools flagstat [options] <in.bam>

-@ 线程

-O FORMAT 设置最终输出的文件格式，可以是txt，json或者tsv，默认为json，tsv；

samtools flagstat输出结果解释:

11945742 + 0 in total (QC-passed reads + QC-failed reads)

#总共的reads数

0 + 0 duplicates

7536364 + 0 mapped (63.09%:-nan%)

#总体上reads的匹配率

11945742 + 0 paired in sequencing

#有多少reads是属于paired reads

5972871 + 0 read1

#reads1中的reads数

5972871 + 0 read2

#reads2中的reads数

6412042 + 0 properly paired (53.68%:-nan%)

#完美匹配的reads数：比对到同一条参考序列，并且两条reads之间的距离符合设置的阈值

6899708 + 0 with itself and mate mapped

#paired reads中两条都比对到参考序列上的reads数

636656 + 0 singletons (5.33%:-nan%)

#单独一条匹配到参考序列上的reads数，和上一个相加，则是总的匹配上的reads数。

469868 + 0 with mate mapped to a different chr

#paired reads中两条分别比对到两条不同的参考序列的reads数

243047 + 0 with mate mapped to a different chr (mapQ>=5)

#paired reads中两条分别比对到两条不同的参考序列的reads数,并且其中比对质量>=5的reads的数量

（5）depth

得到每个碱基位点的测序深度,并输出到标准输出。

usage: samtools depth [options] in.bam [in.bam ...]

注意：做depth之前必须做samtools index；

示例：

samtools depth in.bam > out.depth.txt

注意： in.bam 必须经过了排序。

（6）samtools rmdup

NGS上机测序前需要进行PCR一步，使一个模板扩增出一簇，从而在上机测序的时候表现出为1个点，即一个reads。若一个模板扩增出了多簇，结果得到了多个reads，这些reads的坐标(coordinates)是相近的。在进行了reads比对后需要将这些由PCRduplicates获得的reads去掉，并只保留最高比对质量的read。使用rmdup命令即可完成.

Usage:

samtools rmdup[-sS]

-s对single-end reads。默认情况下，只对paired-endreads

-S将Paired-endreads作为single-endreads处理。

$samtools rmdup input.sorted.bam output.bam

（7）mpileup

samtools还有个非常重要的命令mpileup，以前为pileup。该命令用于生成bcf文件，再使用bcftools进行SNP和Indel的分析。bcftools是samtool中附带的软件，在samtools的安装文件夹中可以找到。

最常用的参数有2个：

-f来输入有索引文件的fasta参考序列；

-g输出到bcf格式。用法和最简单的例子如下

Usage:samtoolsmpileup[-EBug][-CcapQcoef][-rreg][-fin.fa][-llist][-McapMapQ][-QminBaseQ][-qminMapQ]in.bam[in2.bam[...]]

$samtoolsmpileup-fgenome.fastaabc.bam>abc.txt

$samtoolsmpileup-gSDfgenome.fastaabc.bam>abc.bcf

$samtoolsmpileup-guSDfgenome.fastaabc.bam|\bcftoolsview-cvNg->abc.vcf

mpileup不使用-u或-g参数时，则不生成二进制的bcf文件，而生成一个文本文件(输出到标准输出)。该文本文件统计了参考序列中每个碱基位点的比对情况；该文件每一行代表了参考序列中某一个碱基位点的比对结果。比如：

bcf文本文件格式的解释

（8）faidx

对fasta文件建立索引，比如基因组的文件，生成的索引文件以.fai后缀结尾。该命令也能依据索引文件快速提取fasta文件中的某一条（子）序列

Usage: samtools faidx <in.bam> [ [...]]

对基因组文件建立索引

$ samtools faidx genome.fasta

生成了索引文件genome.fasta.fai,是一个文本文件，分成了5列。

第一列是子序列的名称；

第二列是子序列的长度；

第三列是序列所在的位置，因为该数字从上往下逐渐变大，最后的数字是genome.fasta文件的大小；

第4和5列不知是啥意思。于是通过此文件，可以定

位子序列在fasta文件在磁盘上的存放位置，直接快速调出子序列。

由于有索引文件，可以使用以下命令很快从基因组中提取到fasta格式的子序列

$ samtools faidx genome.fasta scffold_10 > scaffold_10.fasta

拓展：bcftools软件

bcftools和samtools类似，用于处理vcf(variant call format)文件和bcf(binary call format)文件。前者为文本文件，后者为其二进制文件。

bcftools使用简单，最主要的命令是view命令，其次还有index和cat等命令。index和cat命令和samtools中类似。此处主讲使用view命令来进行SNP和Indel calling。该命令的使用方法和例子为：

$ bcftools view -cvNg abc.bcf > snp_indel.vcf

生成的结果文件为vcf格式，有10列，分别是：1 参考序列名；2 varianti所在的left-most位置；3 variant的ID（默认未设置，用’.'表示)；4 参考序列的allele；5 variant的allele(有多个alleles，则用’,'分隔);6 variant/reference QUALity;7 FILTers applied;8 variant的信息，使用分号隔开；9 FORMAT of the genotype fields, separated by colon (optional)； 10 SAMPLE genotypes and per-sample information (optional)。

参考链接：

原文链接：https://blog.csdn.net/u013553061/article/details/53179945

https://www.cnblogs.com/emanlee/p/4316581.html

http://events.jianshu.io/p/794d82bccf6c

http://blog.sina.com.cn/s/blog_13de3725c0102v7rd.html

https://www.cnblogs.com/shuaihe/articles/6802246.html

我用到的Samtools介绍

推荐阅读更多精彩内容