一、箱线图
箱线图(boxplot)又称为盒须图,是一种描述连续型变量分布的统计图,因形状如箱子而得名。箱线图提供了一种使用5个点对数据集做简单总结的方式。这5个点包括最小值(minimum)、下四分位数(第25百分位数,Q1)、中位数(第50百分位数,Q2)、上四分位数(第75百分位数,Q3)以及最大值(maximum)。
IQR表示四分位距(interquartile range),即上四分位数与下四分位数的差值(Q3 - Q1)。默认情况下,两条须的延伸极限不会超过矩形盒两端加1.5倍四分位距的范围。此范围以外的值即离群点(outliers)。从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的分布区间。内限即异常值截断点为Q3 + 1.5 IQR和Q1 - 1.5 IQR,外限为Q3 + 3 IQR和Q1 – 3 IQR。处在内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和异常值(mild outliers),在外限以外的为极端异常值(extreme outliers)。
小提琴图是箱线图的变种,可以当作箱线图与核密度图的结合。与箱线图相比,小提琴图还可以反映数值的密度分布范围。
二、R Script
(1)基因表达量原始矩阵
(2)数据整合,按基因求均值
(3)把宽数据变成长数据
(4)修改分组名称
(5)画箱线图
(6)分面
(7)小提琴图
(8)带散点和凹槽的箱线图
(9)内置箱线图的小提琴图
(10)添加显著性标记的箱线图
三、条形图和折线图
(1)误差线数据
这里使用的是Rmisc包的summarySE函数。用法为: summarySE(data = NULL, measurevar, groupvars = NULL, na.rm = FALSE, conf.interval = 0.95, .drop = TRUE) 。measurevar是含有测量值数据的一列的列名。groupvars是分组变量的列的列名。summarySE处理的为长格式数据,可以获得一个包含计数(count,N)、平均值(mean,measurevar)、标准差(standard deviation,sd)、平均值的标准误差(standard error of the mean,se)和置信区间(默认为95%)(confidence interval,mean±ci)的数据框。