sam/bam文件

生信分析中大家接触最多的文件肯定会有SAM文件吧!

SAM格式文件包括头部注释部分和比对结果部分

头部注释部分

头部分为''可选部分''。头部分位于比对部分之前,以“@”开头。比对部分有11列是固定的,其他多列可选。看如下例子:

@HD    VN:1.0  SO:unsorted    #VN版本,比对有无sorted

@SQ    SN:17  LN:83257441    ##SQ:参考序列目录。SN:参考序列名字。LN:参考序列长度

@PG    ID:hisat2      PN:hisat2      VN:2.1.0        CL:/home/bio/bin/hisat2/hisat2-align-s --wrapper basic-0 -c GTGCTGAACGACGAGGACTGCCGGGAGTTCCCCTGGCAC    ##PG:program 。 ID:program record identifier 。 VN:程序版本。CL:command line 0      16      17      805144  60      39M    *      0      0      GTGCCAGGGGAACTCCCGGCAGTCCTCGTCGTTCAGCAC IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII AS:i:0  Z:39    YT:Z:UU NH:i:1

@HD:说明VN的版本以及比对有无排列顺序,这个例子没有排序。

@SQ:参考序列目录。SN:参考序列名字。LN:参考序列长度。

@PG:使用的比对程序名,这个例子是hisat2。

@CO:任意的说明信息。

比对信息部分

第1列. QNAME 表示的是查询序列的名称即短片段(reads)的名称;

第2列. FLAG 以整数来表示比对的结果,不同数值有不同的意义,数值也可以是下列数的组合;

sam 文件第二列flag含义:

1 : 代表这个序列采用的是PE双端测序

2: 代表这个序列和参考序列完全匹配,没有错配和插入缺失

4: 代表这个序列没有mapping到参考序列上

8: 代表这个序列的另一端序列没有比对到参考序列上,比如这条序列是R1,它对应的R2端序列没有比对到参考序列上

16:代表这个序列比对到参考序列的负链上

32 :代表这个序列对应的另一端序列比对到参考序列的负链上

64 : 代表这个序列是R1端序列, read1;

128 : 代表这个序列是R2端序列,read2;

256: 代表这个序列不是主要的比对,一条序列可能比对到参考序列的多个位置,只有一个是首要的比对位置,其他都是次要的

73 = 64+8+1 (R1匹配上,R2没有匹配上)

153 = 128+16+8+1(R2比对到负链接,R1没有匹配上)

97 = 64+32+1 (R2比对到负链,R1不是完全匹配)

99 = 64+32+2+1 (R2比对到负链,R1完全匹配)

147 = 128+16+2+1 (R2完全匹配到负链)

145 = 128+16+1 (R2比对到负链,R1不是完全匹配)

83 = 64+16+2+1 (R1完全匹配到负链)

163 = 128+32+2+1(R2完全匹配,R1比对到负链)

如果以上情况都不符合则默认为:0

第3列. RNAME 表示参考序列的名称,比如基因组的染色体编号等,如果没有比对上则显示为*;

第4列. POS 表示比对的起始位置,以1开始计数,如果没有比对上则显示为0;

第5列. MAPQ 比对质量;

第6列. CIGAR CIGAR 字符串,即比对的详细情况,简要比对信息表达式(Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一 个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的;

*M:表示match或mismatch,*I:表示插入,*D:表示删除*N:表示skipped,跳过这段区域,,*S:表示被剪切的序列存在于序列中*H:表示被剪切的序列不存在于序列中,*P:表示padding(填补),*=:表示match,*X:表示mismatch(错配,位置是一一对应的)

第7列. RNEXT 双末端测序中下一个reads比对的参考系列的名称,如果没有则用*表示,如果和前一个reads比对到同一个参考序列则用=表示;

第8列. PNEXT 下一个reads比对到参考序列上的位置,如果没有则用0表示;

第9列. ISIZE/TLEN query序列的模板长度或者插入长度,Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0;

第10列. reads的序列信息;

第11列. reads的序列质量信息,同FASTQ。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容