在任何一种测量中,无论所用仪器多么精密,方法多么完善,实验者多么细心,不同时间所测得的结果不一定完全相同,会有一定的误差和偏差,严格来讲,误差是指实验测量值(包括直接和间接测量值)与真值(客观存在的准确值)之差,偏差是指实验测量值与平均值之差。
误差分析的目的就是评定实验数据的准确性,通过误差分析,认清误差的来源及其影响,依据分析结果减小误差,提高数据的准确性。
接下来,给大家介绍一款,误差分析的可视化工具。
图1 误差折线图
正式介绍实现方法之前,我们先来了解下误差折线图涉及的三个统计概念。
01、三个概念
1. 标准误(Standard Error,SE)
标准误差(简称标准误)表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本,每一种样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计,标准误是由样本的标准差除以样本容量的开平方来计算的。从公式可以看到,标准误更大的是受到样本容量的影响。样本容量越大,标准误越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表总体。
se = sd(vec) / sqrt(length(vec))
2.标准差(Standard Deviation,SD)
标准偏差(简称标准差)是样本平均数方差的开平方。它反映组内个体间的离散程度。标准差通常是相对于样本数据的平均值而定的,通常用M±SD来表示样本数据观察值和平均值的差距。从公式可以看出,标准差会受到极值的影响。标准差越小,表明数据越聚集;标准差越大,表明数据越离散。
# R 语言实现函数
sd <- sd(vec)
sd <- sqrt(var(vec))
3. 置信区间(Confidence Interval,CI)
所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间,是这个参数的真实值在一定概率条件下落在测量结果周围的程度。
# R 语言实现
alpha=0.05
t=qt((1-alpha)/2 + .5, length(vec)-1) # tend to 1.96 if sample size is big enough
CI=t*se
02、平台实现
首先,登入派森诺基因云, 进入【云图汇→误差折线图】
1. 准备数据
准备图2所示数据,数据文件第一列对应的是分组,第二列对应的是变量名称,第三列对应的是变量数值。
图2 数据示例
2. 提交绘图
上传数据后,一键提交绘图即可。
图3 上传数据示例
3. 参数调整
1.图表样式:添加网络线和边框。
图4 添加网络线和边框示例
2.线条样式:大家可以选择添加平滑曲线,让线段更自然,更好看。同时也可以调整线条的粗细,以及样式。
图5 平滑曲线示例
图6 线条粗细和样式示例
3.差值计算:可切换为标准误,标准差,置信度。多角度描述图表信息。
图7 差值计算示例