前面给大家简单介绍了
今天我们来给大家来个实战,相信大家经常会在文章里面看到下面这样的图。这就是一张典型的蜜蜂图,不过技术含量要更高一些。这张图其实包含了三个技术要点
1)蜜蜂图
2)分位线
3)统计检验p值,或者显著性。我们前面也讲过怎么样将p值转换成相应的星号来表示统计显著性。
1. 数据来源
这张图里面用到的数据来自TCGA,这个数据库做肿瘤研究的小伙伴应该很熟悉了。还不了解的小伙伴可以参考
2. 颜色
根据样本类型,我们可以将gene的表达值分成两组,Normal组和Tumor组,然后统计每个组里面的样本数,会显示在x轴的标签上面。Normal组用蓝色点展示,Tumor组用红色点展示。
3. 分位线
这个分位数线,其实跟boxplot箱体的上边沿,下边沿和中线是一个概念。分别代表了表达量的1/4, 中位数和3/4分位数。
4. p值或显著性
这里根据样本类型将gene的表达值分成两组之后就可以做统计检验了,一般可以做t检验,或者做wilcox.test(不满足正太分布)。然后我们可以根据需要显示p值,或者显示星号。
这里我们用TCGA数据库里面的LUAD(肺腺癌的)FABP4基因为例。
最终我们得到下面的两张图
1)显示p值
2)显示显著性星号
完整R代码+详细注释。同时提供两个代码,一个针对TCGA数据,一个为通用代码。☟☟☟