TCGA入门---使用maftools处理变异数据

使用maftools处理变异数据是生信技能树TCGA课程中讲到的一个知识点,现做下简单总结练习,记录过程如下,方便后续使用。

1.下载数据

1.1进入TCGA网站


image.png

1.2 case选择


image.png

1.3 file选择
image.png

1.4 下载mutect文件


image.png

这个文件不大,download即可
image.png

下载得到
image.png

2.读取数据

2.1 解压即可得到一个maf.gz文件,放到工作目录下


image.png

3.突变数据可视化

3.1 maftools 自带可视化函数plotmafSummary
可以比较直观的统计maf文件的数据。

#if (as.numeric(dev.cur()) != 1) graphics.off()
plotmafSummary(maf = laml, rmOutlier = TRUE,
               #showBarcodes = FALSE,
               addStat = 'median', dashboard = TRUE, titvRaw = FALSE)

就是将maf_df 数据框做了统计,用barplot和boxplot做了可视化。
3.2 突变频谱图
选择突变数量前30的基因

oncoplot(maf = laml, top = 30, fontSize = 0.7)

image.png

图形解读

左边热图

一行是一个基因,总共是9444个基因,从中截取了top30;
一列是一个样本,总共是336个样本。
不同颜色代表不同类型的突变。

右侧条形图

右侧的条形图是每个基因的突变样本数、突变类型和比例

验证一下突变样本数

> count(maf_df,Hugo_Symbol,sort = T)
      Hugo_Symbol   n
   1:         VHL 169
   2:       PBRM1 148
   3:         TTN  77
   4:       SETD2  46
   5:        BAP1  37
  ---                
9440:       ZWINT   1
9441:        ZXDA   1
9442:        ZXDB   1
9443:        ZXDC   1
9444:         ZYX   1

结果显示VHL在169样本中突变,样本总数336,所以是49%,
条形图的颜色是突变类型,以VHL基因为例,他的突变类型分别是:

> maf_df %>% filter(Hugo_Symbol=="VHL") %>%
+   count(Variant_Classification,sort = T)
   Variant_Classification  n
1:      Missense_Mutation 60
2:        Frame_Shift_Del 41
3:      Nonsense_Mutation 27
4:        Frame_Shift_Ins 22
5:            Splice_Site 16
6:           In_Frame_Del  2
7:       Nonstop_Mutation  1
顶部条形图

显示每个样本里突变的基因个数,可以看到最高的是那个1600多。

> laml@variants.per.sample %>% head()
           Tumor_Sample_Barcode Variants
1: TCGA-B8-4143-01A-01D-1806-10     1611
2: TCGA-B0-5098-01A-01D-1421-08      550
3: TCGA-A3-A8OV-01A-11D-A36X-10      120
4: TCGA-CJ-4920-01A-01D-1429-08      117
5: TCGA-CZ-5468-01A-01D-1501-10      102
6: TCGA-B0-5713-01A-11D-1669-08       97

后面还可以根据自己分组情况添加一些临床信息。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容