生物统计学笔记01 2024-12-18

第二章 描述性统计

2.1 位置测度(measures of location)

2.1.1 算术均数(Arithmetic Mean):

        所有观察值的和除以观察个数。

                                          \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + \cdots + x_n}{n}

例如:表2.1中调整饮食前平均胆固醇水平计算如下:

                                            \sum_{i=1}^{24} x_i = 4507, \quad \overline{x} = \frac{4507}{24} = 187.8 \, \text{mg/dL}

优点:

1.代表所有的样本点;

2.如果分布对称,如高斯分布(钟形曲线),算术均数是一个有效的位置测度(位于中心)。

3.多数统计检验是以算术均数为基础。

缺点:

1.对极端值敏感,尤其是小样本。

2.如果分布不对称,如偏态分布,那么是不适用的。

2.1.2 算术均数的替代——中位数(Median):

在一个样本中包含有n个观察值,并且这些观察值是从小到大排序,则中位数的定义如下:

1) 如果n是奇数,则median=\frac{n+1}{2} 最大观察值;

2)如果n是偶数,则median=[\frac{n}{2} +(\frac{n}{2} +1)]观察值的平均;

例如:如果n=7,则median=4th 最大样本点;   如果n=24,则median=(12th+13th)的最大样本点的平均;

2.1.3 茎叶图(stem-and-leaf plots)

如何轻松地计算中位数?我们需要对数据进行排序以获得第12个和第13个最大的点,有一个更简单的方法是计算茎叶图。将每个数据值分成一个叶(意义最小的数字)和一个茎(意义最大的数字),并将所有具有相同茎的数据点收集在同一行上。例如,数字195有一个茎19和一个叶5。下面给出了之前测量的茎叶图。

我们增加了一个累积总数列,该列显示了在该行中茎值≤该行茎值的所有点的总数。从茎叶图中计算中位数是很容易的,因为中位数 = 第12个和第13个最大值的平均值 = (178 +180)/ 2 =179  。请注意,同一行(茎)内的叶子(叶)不一定按顺序排列。茎叶图的一个用途是提供两个不同数据集中值的视觉比较。以下是低于和高于中位数的人群胆固醇变化的茎叶图:

各个子组的变化值看起来相当不同;初始值高于中位数的子组显示出更大的变化。我们将能够通过t检验(将在教材第8章中介绍)来测试平均改变值是否“显著不同”。

2.1.4 百分位数(percentiles)

我们也可以使用茎叶图来获得分布的百分位数。要计算第p百分位数,

(1)如果np/100是一个整数,那么取位置np的值和np+1位置的大的观察值的平均值即第p个百分位数;

(2)如果np/100不是一个整数,而k是<np/100的最大整数,则第k+1个最大样本点即第p个百分位数。

常用的百分位数有:四分位数(25,50及75),五分位数(20,40,60,80)及百分位数(10,20,30…,90)。

优点:

1. 总是保证有50%的数据值位于中位数的一侧。

2. 对异常值(极端值)不敏感。如果胆固醇值中的一个从200增加到800,中位数仍然保持在179,但平均值会从188 mg/dL增加至188+25=213 mg/dL。

缺点:

1. 如果分布是高斯分布,它对中间位置的估计不如算术平均数那样恰当,因为它主要对分布的中间部分敏感。

2. 大多数统计程序都是建立在算术平均数的基础之上。

2.1.5 几何均值(Geometric Mean)

解决算术平均数缺点的一种方法是将数据转换成不同的尺度,使得分布更加对称,并在新的尺度上计算算术平均数。最流行的这种尺度是自然对数(\ln x \log_e )尺度:

                              ln(x_1),...,ln(x_n)

然后在这个尺度上计算均值并且表示为            

                             \overline{lnx}=\frac{ln(x_1)+...+ln(x_n)}{n}

这样做的问题是,平均值是在自然对数尺度上,而不是原始尺度上。因此,我们对 \overline{lnx}取反对数

                             GM=e^\overline{lnx}= 几何均数

视网膜电图(ERG,electroretinogram)振幅(微伏)是衡量视网膜电活动的一个指标,用于监测患有视网膜色素变性(一种常见的致盲性眼病)患者的视网膜功能。以下数据是从10名患者身上收集的,用于在1年的时间内监测病情的发展。

每年数值的分布高度倾斜,变化分数主要受第一年ERG振幅较高的人群影响。在自然对数尺度上的分布则更加对称。让我们计算第一年和第二年的几何平均数(GM)。

year 1          \overline{lnx}=\frac{ln(1.9)+...+ln(6.3)}{10} =1.8144

                  GM_1=e^1.8144=6.137\mu V

year 2       \overline{ln(x)}=\frac{ln(1.4)+...+ln(3.5)}{10} =1.5508

                  GM_2=e^1.5508=4.715\mu V

我们可以通过以下方式量化百分比变化

\frac{GM_2}{GM_1} =\frac{4.715}{6.137}=0.768\approx 23.2%%下降(=100%\times (1-0.768))

因此,ERG(视网膜电图)振幅平均在一年内下降了23.2%。

优势

1.对某些倾斜分布有用。

2.可以在对数尺度上使用标准的统计程序。

缺点

1.不适用于对称数据。

2.对异常值比中位数敏感但不及算术平均数。

2.2 离散性的测度(measures of spread)

2.2.1 极差(range)

一个样本中最大与最小观察值之间的差异称为极差(range)。

2.2.2 近似范围(quasi-range)

近似范围类似于极差,但在两侧去除特定的样本百分比;例如10%到90%。例如胆固醇数据

10%样本点=从最小到第3最大样本点=151mg/dL

90%样本点=从最大到第3最大样本点=238mg/dL

近似范围=(151,238)

2.2.3 标准差(standard Deviation)和方差(Variance)

如果分布是正态分布或近似正态分布,那标准差通常用于离散性测量。

S^2=sample variance =\sum_{i=1}^{n}\frac{(x_i-\overline{x})^2}{n-1}

s=sample standard deviation variance = \sqrt[]{s^2}

为什么使用标准差而不是方差?

我们希望描述离散程度的统计量与算术均数(\overline{x})单位相同,便于直接比较,而方差不行。如果单位转换\times C,转换后的数据称为y,则

                \overline{y}=c\overline{x}          s_y=cs_x 但是 s_y^2=c^2S_x^2

如果分布成正态分布,那我们可以用\overline{x} 和s 得到分布的离散程度的印象。

\overline{x}\pm s 大约占分布的2/3

\overline{x}\pm 2s(更准确是1.96s)大约占分布的95%

\overline{x}\pm 2.5s(更准确是2.576s)大约占分布的99%

假设分布不是正态分布,那用\overline{x} 和s 不足以描述分布的特征,这种情况最好使用百分位数(例如用中位数代替均值,近似范围代替标准差)。

2.2.4 变异系数(coefficient of Variation,CV)

                    CV = 100\% \times \frac{s}{\overline{x}}

如果变异认为与均值相关时使用。

2.3 数据描述的其他方式

2.3.1 频率分布(frequency distribution)

频率分布是一个列出每个数值及其出现频率的列表(或者,除了频率之外,还包括与每个数值相关联的得分的百分比)。这种划分是以原始数值为基础,也是以分组的形式;例如,如果我们将胆固醇变化分数按10毫克的增量进行分组,那么我们会有

频率分布既可以以数据的形式也可以以图形的形式描述。如果图形的形式,通常用条形图表示。

2.3.2 箱线图

另一种通常用计算机软件包描述数据的图形技术是箱线图(Box plot)。箱线图的箱体(矩形)显示了上四分位数和下四分位数、中位数、算术平均数以及异常值(如果有的话)。这是一种简洁的方式来观察数据分布的对称性和范围。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容