Sam 和bam文件习题

本文中的sam 文件由bowite2 中example文件夹中的reads_1和reads_2比对产生的。

1)有多少条reads(pair-and-reads这里算一条)参与了比对参考基因组
cat tmp.sam |grep -v "^@" |wc

2)统计共多少找那个比多类型(即第二列数值有多少种)及其分布
cat tmp.sam |grep -v "^@" |cut -f 2 |sort |uniq -c
cat tmp.sam |grep -v "^@" |cut -f 2 |sort |uniq -c |sort -k1,1nr #按照比对类型的数目进行排序

3)筛选出比对失败的reads,看看序列特征。
筛选第6列为*的reads:
cat tmp.sam |grep -v "^@"|awk '{if($6=="*")print}'|wc
或者
cat tmp.sam |grep -v "^@" |cut -f 6 |grep '*'|wc

输出序列(第10列)
cat tmp.sam |grep -v "^@"|awk '{if($6=="*")print ¥10 }'

4)比对失败的reads区分成单端失败和双端失败情况
接着上一题,查看第一列的比对片段编号(有重复的是双端都没有比对上,只有一个的说明是单端没有比对上)

cat tmp.sam |grep -v "^@"|awk '{if($6=="*")print $1}'|sort |uniq -c
然后grep -w 2或者grep -w 1,分别输出双端和单端没比对上的reads

5)筛选出比对质量大于30的情况(看第5列)
cat tmp.sam |grep -v "^@"|awk '{if($5>30)print}'

6)筛选出比对成果,但是并不是完全匹配的序列
先找到比对成功(不是不完全失败的 awk '{if(6!="*")print6
cat tmp.sam |grep -v "^@"|awk '{if($6!="*")print$6 }' |grep -c "[IDNSHPX]" |wc

7)筛选出insert size长度大于1250bp的pair-and-reads
cat tmp.sam |grep -v "^@"|awk '{if($7>1250)print }'

8)统计参考基因组上面各条染色体的成功比对reads数量
cut -f 3 tmp.sam |sort -u

9)筛选出原始fq序列里边有N的比例情况
awk '{if($10~"N")print}' tmp.sam |less -S
这里没有单独看第10列,而是在第10列里边找,看整体所有信息。

10)筛选出原始fq序列里边有N,但是比对的时候确实完全匹配的情况
awk '{if($10~"N")print}' tmp.sam |awk '{if($6!~"[IDNSHPX*]")print}' |less -S
注意这里排除不完全匹配的情况,还有排除完全不匹配的情况*

11)sam文件里边的头文件行数
grep "^@" tmp.sam |wc

12)Sam文件里每一行的tags个数一样吗?
第12列以后,这里选取到1000列

13)Sam文件里每一行的tags数分别是多少
cut -f 12-1000 tmp.sam |awk '{len=split($0,a," ");print len}'

14)Sam文件里记录的参考基因组染色体长度分别是?
grep "LN" tmp.sam

15)找到比对情况有insertion的情况
awk '{if($6~"I")print }' tmp. sam

16)找到比对情况有deletion的情况
awk '{if($6~"D")print }' tmp. sam

17)取出位于参考基因组某区域的比对记录,比如5013到50130区域
awk '{if($4>5013 && $4<50130)print}' tmp.sam |less -S

18)把sam文件按照染色体以及起始坐标排序
sort -k 3 tmp.sam |less -S
sort -n -k 4 tmp.sam |less -S

19)找到102M3D11M的比对情况,计算其reads片段长度
grep "102M3D11M" tmp.sam |cut -f 10|wc

20)按照samtools软件后把上述题目重新做一遍

感谢jimmy大神!!!

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容