前面小编通过图文和视频给大家讲解了如何从TCGA数据库下载体细胞突变的数据。
☞ 如何从TCGA数据库下载体细胞突变数据(somatic mutation)
基于下载下载下来的数据,我们使用
得到一个矩阵
接着小编给大家简单的介绍了maftools这个R包的使用方法,用这个包自带的数据给大家演示了如何绘制体细胞突变的瀑布图。
今天我们来学以致用,将前面讲过的这些内容综合应用到实战中。来复现下面这篇SCI文章中的体细胞突变瀑布图。
这篇文章,大家应该并不陌生了,因为前面讲
☞ 科研新热点——血管生成相关基因的时候就已经提到过这篇文章。小编还跟大家分享了36个血管生成基因。今天我们的实战也会用到这36个基因。我们先来看看文章中呈现的体细胞突变图长什么样的。
这篇文章研究的是胃癌,在TCGA里面对应的数据是TCGA-STAD。大家可以按照我们前面讲过的方法。
1.下载TCGA-STAD这套数据的体细胞突变的数据。
☞ 如何从TCGA数据库下载体细胞突变数据(somatic mutation)
2. 合并maf文件得到一个完整的矩阵
3. 利用maftools包绘制,绘制体细胞突变瀑布图
☞ maftools包分析突变数据,绘制瀑布图
这篇文章中的瀑布图里面展示的并不是top20包含最多体细胞突变的基因,而是36个血管生成基因的体细胞突变情况。并且,在瀑布图的下方还有一个单碱基突变占比的柱形图。
完整的复现这张图的R代码+详细注释☟☟☟