命令行工具
使用samtools tview
工具可以对bam文件在命令行进行可视化。需要输入已经排序与建立索引的BAM文件,这里以NA12891_CEU_sample.bam
文件为例(其中human_g1k_v37.fasta
文件为参考基因组):
$ samtools tview NA12891_CEU_sample.bam human_g1k_v37.fasta
因为默认展示开头部分,映入眼帘的是一串N,可以通过-p
参数指定展示区域:
$ samtools tview -p 1:215906469-215906652 NA12891_CEU_sample.bam human_g1k_v37.fasta
结果如下,通过?
键可以展示一系列交互命令(图1)。
图1 samtools tview 结果
IGV
如果需要长久细致地观察结果,可以使用IGV软件。其由java开发,具体安装方式参见官网。
在打开IGV后,首先导入参考基因组数据:点击 Genome Load Genome From Server ...,在弹出的列表中选择
Human (1kg, b37+decoy)
。
接着,导入需要查看的BAM文件(通过选择File Load from file)。
输入要查看的位置1:215,906,528-215,906,567,结果如下(图2):
图2
整个窗口由以下部分组成:
- 最上端窗口展示染色体标志与基因组位置
- 中间窗口展示每个碱基的覆盖度与read分布
- 最下面窗口展示序列与基因
发生碱基错配的区域会以鲜艳的颜色标注,可以看到215906547,215906548与215906555位点的错配碱基数目特别多,有可能为核苷酸多态。将鼠标悬停于read上可以观看其详细信息(例如测序质量)(图3):
图3
215906547-215906548两个位置的碱基存在3种形式:
- 两个碱基都与参考序列一致(CG)
- 两个碱基为GG,后者与参考序列一致
- 两个碱基为GC,两者都与参考序列不一致
由于人类基因组为二倍体,而这里出现了3种单体型,说明错配很可能由比对错误引起。另外这里的序列由低复杂度的CGGGGGGGCGGGGGG组成,也很容易发生错误比对。因此在突变识别之后进行人工检查非常常见,可以以此降低突变的假阳性率。