使用maftools处理变异数据是生信技能树TCGA课程中讲到的一个知识点,现做下简单总结练习,记录过程如下,方便后续使用。
1.下载数据
1.1进入TCGA网站
1.2 case选择
1.3 file选择
1.4 下载mutect文件
这个文件不大,download即可
下载得到
2.读取数据
2.1 解压即可得到一个maf.gz文件,放到工作目录下
3.突变数据可视化
3.1 maftools 自带可视化函数plotmafSummary
可以比较直观的统计maf文件的数据。
#if (as.numeric(dev.cur()) != 1) graphics.off()
plotmafSummary(maf = laml, rmOutlier = TRUE,
#showBarcodes = FALSE,
addStat = 'median', dashboard = TRUE, titvRaw = FALSE)
就是将maf_df 数据框做了统计,用barplot和boxplot做了可视化。
3.2 突变频谱图
选择突变数量前30的基因
oncoplot(maf = laml, top = 30, fontSize = 0.7)
图形解读
左边热图
一行是一个基因,总共是9444个基因,从中截取了top30;
一列是一个样本,总共是336个样本。
不同颜色代表不同类型的突变。
右侧条形图
右侧的条形图是每个基因的突变样本数、突变类型和比例
验证一下突变样本数
> count(maf_df,Hugo_Symbol,sort = T)
Hugo_Symbol n
1: VHL 169
2: PBRM1 148
3: TTN 77
4: SETD2 46
5: BAP1 37
---
9440: ZWINT 1
9441: ZXDA 1
9442: ZXDB 1
9443: ZXDC 1
9444: ZYX 1
结果显示VHL在169样本中突变,样本总数336,所以是49%,
条形图的颜色是突变类型,以VHL基因为例,他的突变类型分别是:
> maf_df %>% filter(Hugo_Symbol=="VHL") %>%
+ count(Variant_Classification,sort = T)
Variant_Classification n
1: Missense_Mutation 60
2: Frame_Shift_Del 41
3: Nonsense_Mutation 27
4: Frame_Shift_Ins 22
5: Splice_Site 16
6: In_Frame_Del 2
7: Nonstop_Mutation 1
顶部条形图
显示每个样本里突变的基因个数,可以看到最高的是那个1600多。
> laml@variants.per.sample %>% head()
Tumor_Sample_Barcode Variants
1: TCGA-B8-4143-01A-01D-1806-10 1611
2: TCGA-B0-5098-01A-01D-1421-08 550
3: TCGA-A3-A8OV-01A-11D-A36X-10 120
4: TCGA-CJ-4920-01A-01D-1429-08 117
5: TCGA-CZ-5468-01A-01D-1501-10 102
6: TCGA-B0-5713-01A-11D-1669-08 97
后面还可以根据自己分组情况添加一些临床信息。