IGV( Integrative Genomics Viewer)是一款针对高通量测序数据进行可视化的专业软件。
优点
满足不同类型的研究的需求,便于查看各种类型的现成的数据,适合不同用户,使用方便。数据导入
参考基因组可以选择Genomes-load genome from Server进行下载参考基因组,也可直接导入faste文件(Genomes-load genome from file)。
输入的文件格式支持bam/sam文件(比对),TDF文件(bam精简版,只包括局部深度、正负链等信息),bed文件(注释文件),gtf/gff文件(注释文件),PSL文件(Blast比对结果),VCF文件(SNP,indel等信息),WIG文件(Wiggle Track Format,UCSC数据库的推荐格式),IGV文件(IGV默认的格式)。
模式物种可以在IGV官网下载相关信息。
- 窗口
如图,分为左右两列,右侧自上而下有工具栏,基因组坐标,标尺,比对结果展示,序列及注释等信息,左侧标识栏会出现对应的track名称,当有多个样本时,中间出现样本信息的界面。每导入一个文件,会出现一个对应的track。
- 一个操作例子
1) 数据导入
导入基因组文件(Genomes-load genome from file, faste文件);
导入基因注释文件(file-load from file, gtf文件);
导入bam文件(file-load from file, bam文件,bam文件夹中必须同时存在对应的具有共同前缀的.bam.bai文件),用IGV tools转化为TDF,再导入生成的TDF文件。
2)目标区域选择
点击define a region of interest添加目标区域,通过Regions-Regions Navigator编辑。
可以在工具栏中搜索染色体,坐标位置,相关基因等信息。一般缩放到全染色体大小时候查看覆盖度等信息,50-100 kb查看局部信息,如基因表达,突变等,500bp可查看单碱基水平的情况。
右击track设置颜色、高度、呈现形式(热图,柱形图)、取值方式(标准化,均值等)等属性,选择“Expanded”或 “squished”可以展开track。同时也可以进行删除和保存。
3)序列查看
如图,在窗口下方可看到序列和外显子注释信息,点击序列可看到对应翻译后的氨基酸序列,分为三种 reading frame 下的氨基酸序列。序列箭头指向右表示正链,指向左表示负链。右键选择Flip strand可查看互补链信息。
4)查看比对情况
导入bam后出现3条tracks,如图,分别是Coverage Tack,Junction Track和 Reads Track 。
4.1) 覆盖度栏(Coverage Track): 用于直接展示reads 的丰度,高度代表比对到此处read数目,当比对到参考基因组上的测序片段中有超过20%与参考基因组不同时,就用不同的颜色标注,红色-T,蓝色-C,绿色-A,橙色-G。否则就用灰色标注。在更高的分辨率下,可以查看每个碱基下覆盖的各种碱基的数目及比例。此外,点击右键可选择不同的展示形式的选项。
4.2)Reads栏(Reads Track): 主要用于直接展示reads的比对情况。
右键点击reads track,选择 Expanded,Show mismatched bases,能得到类似第一幅图的展示结果。图中实心灰代表比对质量比较高的测序片段,空心灰代表多比对序列。高分辨率下,可以精确到每个位点的碱基类型:当比对序列上与参考基因组相同的超过80%时,用灰色表示;否则用红色-T,蓝色-C,绿色-A,橙色-G,图中的黑点代表有插入或缺失的发生, 放大后能查看细节,紫色代表插入,黑色横线代表缺失,鼠标选择后查看细节。
右键read区域,选择Color alignment by-Read strand,可将read分为左右两端查看。
reads较多可以Sort alignment by或者Group alignment by进行排序和分区查看。
a)查看insert size异常Read
右键菜单Set insert size options 中设置阈值,在Color alignments by中选择 insert size。此时reads会标上不同颜色,蓝色代表insert size比阈值要小,红色代表insert size比阈值要大,其他颜色代表着read比对到另一个染色体上,并且不同颜色代表不同的染色体。
b)查看结构异常(转换,颠换,重复)
右键Color alignment by,选择Pair orientation。符号意义:
3)结构栏(Junction Track)
通过Sashimi Plot中的右键菜单,对Junction进行筛选,如深度的设定等,从而得到特义的且显著的junction。
基因表达
输入目的基因,查看各样本表达差异,同时可以关注与甲基化是否潜在存在关联(重点查看5’启动子端)。IGVTools
count: 计算将已排序的比对文件,转化为包含深度信息的TDF文件。 支持的输入格式包括sam,bam, aligned,sorted.txt, bed。
sort: 对输入的文件根据行的起始位点排序。支持的输入格式cn, igv, sam, aligned, bed。
index: 对文件加索引。支持的输入格式: sam, aligned, sorted.txt(注意no bam)。
toTDF: 将sorted后的文件转为二进制的TDF文件 (.tdf),支持的输入格式: wig, cn, snp, igv, gct