SAM文件格式介绍

转载:https://biozx.top/sam.html

image

SAM 是sequence alignment format [http://samtools.github.io/hts-specs/SAMv1.pdf]的缩写,BAM文件是SAM的二进制文件。当测序生成的fastq文件比对到参考基因组后就会生成SAM文件或者BAM文件。大部分的数据分析都是始于SAM文件。

SAM 文件的结构

SAM格式文件包括头部注释部分比对结果部分,头部分为''可选部分''。头部分位于比对部分之前,以“@”开头。比对部分有11列是固定的,其他多列可选。看如下例子:

 @HD     VN:1.0  SO:unsorted     #VN版本,比对有无sorted

@SQ     SN:17   LN:83257441    ##SQ:参考序列目录。SN:参考序列名字。LN:参考序列长度

 @PG     ID:hisat2       PN:hisat2       VN:2.1.0        CL:/home/bio/bin/hisat2/hisat2-align-s --wrapper basic-0 -c GTGCTGAACGACGAGGACTGCCGGGAGTTCCCCTGGCAC    ##PG:program 。 ID:program record identifier 。 VN:程序版本。CL:command line

 0       16      17      805144  60      39M     *       0       0       GTGCCAGGGGAACTCCCGGCAGTCCTCGTCGTTCAGCAC IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII AS:i:0  Z:39    YT:Z:UU NH:i:1
头部注释部分
  • @HD:说明VN的版本以及比对有无排列顺序,这个例子没有排序。

  • @SQ:参考序列目录。SN:参考序列名字。LN:参考序列长度。

  • @PG:使用的比对程序名,这个例子是hisat2

比对结果部分

比对结果部分每行标示一个read与参考序列的比对信息,前11列为必须字段,顺序固定。其余列是可选字段。前11列如下解释:

  • 第一列Query Name:read的名称,即片段的编号。

  • 第二列FLAG:如果不是以下数字中的一个,则是一下数据某几个的和

    • 1:标示对应的二进制为01,标示read有多个测序数据,一般理解为有双端测序数据,另一条没有过滤掉;

    • 2:二进制为10,标示read的多个片段都有比对结果,双端的read都比对上了;

    • 4:表示这条read没有比对上;

    • 8:标示下一条read没有比对上;

    • 16:表示这条read的反向比对上了;

    • 32:表示这条read的下一条的反向没有比对上;

    • 64:表示样本中第一个片段;

    • 128:表示样本中最后一条片段;

    • 256:表示第二次比对;

    • 512:表示比对的质量不合格;

    • 1204:表示read是pcr或光学副本产生的;

    • 2048:表示辅助比对结果;


>Bit Description

 1 0x1   template having multiple segments in sequencing

 2 0x2   each segment properly aligned according to the aligner

 4 0x4   segment unmapped

 8 0x8   next segment in the template unmapped

 16 0x10   SEQ being reverse complemented

 32 0x20   SEQ of the next segment in the template being reverse complemented

 64 0x40   the first segment in the template

 128 0x80   the last segment in the template

 256 0x100   secondary alignment

 512 0x200 not passing filters, such as platform/vendor quality controls

 1024 0x400 PCR or optical duplicate

 2048 0x800 supplementary alignment

  • 第三列Reference Name:参考序列的名称,或者比对到参考序列上的染色体号。比对不上为*

  • 第四列Position:比对上的位置,从1开始计数(顺着链的方向从1数起,哪个位置开始匹配)。没有比对上为0;

  • 第五列Mapping Quality:比对的质量分数,越高表示比对的越准确。

  • 第六列CIGAR:表示比对的结果。

    * M:表示match或mismatch
    
    * I:表示插入
    
    * D:表示删除
    
    * N:表示skipped,跳过这段区域
    
    * S:表示被剪切的序列存在于序列中
    
    * H:表示被剪切的序列不存在于序列中
    
    * P:表示padding(填补)
    
    * =:表示match
    
    * X:表示mismatch(错配,位置是一一对应的)
    
  • 第七列RNEXT:表示下一个片段比对上的参考序列的编号,比对不上用’*‘,该片段和下一个片段比对上同一个参考片段,用’=‘;

  • 第八列PNEXT:表示下一个片段比对上的位置,如果不可用,此处为0;

  • 第九列TLEN:表示Template的长度。如果第八列大于第四列,则为正数,否则负数。

  • 第十列SEQ:表示序列片段的序列信息,(注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度),表示read的碱基序列,如果是比对到互补链上则是反转互补序列。

  • 第十一列QUAL:表示read的质量,用ASCII编码表示。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,711评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,079评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,194评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,089评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,197评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,306评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,338评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,119评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,541评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,846评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,014评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,694评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,322评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,026评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,257评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,863评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,895评论 2 351

推荐阅读更多精彩内容