第二章 描述性统计
2.1 位置测度(measures of location)
2.1.1 算术均数(Arithmetic Mean):
所有观察值的和除以观察个数。
例如:表2.1中调整饮食前平均胆固醇水平计算如下:
优点:
1.代表所有的样本点;
2.如果分布对称,如高斯分布(钟形曲线),算术均数是一个有效的位置测度(位于中心)。
3.多数统计检验是以算术均数为基础。
缺点:
1.对极端值敏感,尤其是小样本。
2.如果分布不对称,如偏态分布,那么是不适用的。
2.1.2 算术均数的替代——中位数(Median):
在一个样本中包含有个观察值,并且这些观察值是从小到大排序,则中位数的定义如下:
1) 如果是奇数,则
最大观察值;
2)如果是偶数,则
观察值的平均;
例如:如果,则
;
2.1.3 茎叶图(stem-and-leaf plots)
如何轻松地计算中位数?我们需要对数据进行排序以获得第12个和第13个最大的点,有一个更简单的方法是计算茎叶图。将每个数据值分成一个叶(意义最小的数字)和一个茎(意义最大的数字),并将所有具有相同茎的数据点收集在同一行上。例如,数字195有一个茎19和一个叶5。下面给出了之前测量的茎叶图。
我们增加了一个累积总数列,该列显示了在该行中茎值≤该行茎值的所有点的总数。从茎叶图中计算中位数是很容易的,因为中位数 = 第12个和第13个最大值的平均值 = (178 +180)/ 2 =179 。请注意,同一行(茎)内的叶子(叶)不一定按顺序排列。茎叶图的一个用途是提供两个不同数据集中值的视觉比较。以下是低于和高于中位数的人群胆固醇变化的茎叶图:
各个子组的变化值看起来相当不同;初始值高于中位数的子组显示出更大的变化。我们将能够通过t检验(将在教材第8章中介绍)来测试平均改变值是否“显著不同”。
2.1.4 百分位数(percentiles)
我们也可以使用茎叶图来获得分布的百分位数。要计算第百分位数,
(1)如果是一个整数,那么取位置
的值和
位置的大的观察值的平均值即第
个百分位数;
(2)如果不是一个整数,而
是<
的最大整数,则第
个最大样本点即第
个百分位数。
常用的百分位数有:四分位数(25,50及75),五分位数(20,40,60,80)及百分位数(10,20,30…,90)。
优点:
1. 总是保证有50%的数据值位于中位数的一侧。
2. 对异常值(极端值)不敏感。如果胆固醇值中的一个从200增加到800,中位数仍然保持在179,但平均值会从188 mg/dL增加至188+25=213 mg/dL。
缺点:
1. 如果分布是高斯分布,它对中间位置的估计不如算术平均数那样恰当,因为它主要对分布的中间部分敏感。
2. 大多数统计程序都是建立在算术平均数的基础之上。
2.1.5 几何均值(Geometric Mean)
解决算术平均数缺点的一种方法是将数据转换成不同的尺度,使得分布更加对称,并在新的尺度上计算算术平均数。最流行的这种尺度是自然对数(或
)尺度:
然后在这个尺度上计算均值并且表示为
这样做的问题是,平均值是在自然对数尺度上,而不是原始尺度上。因此,我们对
视网膜电图(ERG,electroretinogram)振幅(微伏)是衡量视网膜电活动的一个指标,用于监测患有视网膜色素变性(一种常见的致盲性眼病)患者的视网膜功能。以下数据是从10名患者身上收集的,用于在1年的时间内监测病情的发展。
每年数值的分布高度倾斜,变化分数主要受第一年ERG振幅较高的人群影响。在自然对数尺度上的分布则更加对称。让我们计算第一年和第二年的几何平均数(GM)。
year 1
year 2
我们可以通过以下方式量化百分比变化
%下降(=100%
(1-0.768))
因此,ERG(视网膜电图)振幅平均在一年内下降了23.2%。
优势
1.对某些倾斜分布有用。
2.可以在对数尺度上使用标准的统计程序。
缺点
1.不适用于对称数据。
2.对异常值比中位数敏感但不及算术平均数。
2.2 离散性的测度(measures of spread)
2.2.1 极差(range)
一个样本中最大与最小观察值之间的差异称为极差(range)。
2.2.2 近似范围(quasi-range)
近似范围类似于极差,但在两侧去除特定的样本百分比;例如10%到90%。例如胆固醇数据
10%样本点=从最小到第3最大样本点=151mg/dL
90%样本点=从最大到第3最大样本点=238mg/dL
近似范围=(151,238)
2.2.3 标准差(standard Deviation)和方差(Variance)
如果分布是正态分布或近似正态分布,那标准差通常用于离散性测量。
为什么使用标准差而不是方差?
我们希望描述离散程度的统计量与算术均数()单位相同,便于直接比较,而方差不行。如果单位转换
,转换后的数据称为
,则
但是
如果分布成正态分布,那我们可以用 和
得到分布的离散程度的印象。
大约占分布的2/3
大约占分布的95%
大约占分布的99%
假设分布不是正态分布,那用 和
不足以描述分布的特征,这种情况最好使用百分位数(例如用中位数代替均值,近似范围代替标准差)。
2.2.4 变异系数(coefficient of Variation,CV)
如果变异认为与均值相关时使用。
2.3 数据描述的其他方式
2.3.1 频率分布(frequency distribution)
频率分布是一个列出每个数值及其出现频率的列表(或者,除了频率之外,还包括与每个数值相关联的得分的百分比)。这种划分是以原始数值为基础,也是以分组的形式;例如,如果我们将胆固醇变化分数按10毫克的增量进行分组,那么我们会有
频率分布既可以以数据的形式也可以以图形的形式描述。如果图形的形式,通常用条形图表示。
2.3.2 箱线图
另一种通常用计算机软件包描述数据的图形技术是箱线图(Box plot)。箱线图的箱体(矩形)显示了上四分位数和下四分位数、中位数、算术平均数以及异常值(如果有的话)。这是一种简洁的方式来观察数据分布的对称性和范围。