第二章描述性统计

2.1 位置测度(measures of location)

2.1.1 算术均数(Arithmetic Mean)：

所有观察值的和除以观察个数。

$\overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + \cdots + x_n}{n}$

例如：表2.1中调整饮食前平均胆固醇水平计算如下：

$\sum_{i=1}^{24} x_i = 4507, \quad \overline{x} = \frac{4507}{24} = 187.8 \, \text{mg/dL}$

优点：

1.代表所有的样本点；

2.如果分布对称，如高斯分布（钟形曲线），算术均数是一个有效的位置测度（位于中心）。

3.多数统计检验是以算术均数为基础。

缺点：

1.对极端值敏感，尤其是小样本。

2.如果分布不对称，如偏态分布，那么是不适用的。

2.1.2 算术均数的替代——中位数(Median)：

在一个样本中包含有 $n$ 个观察值，并且这些观察值是从小到大排序，则中位数的定义如下:

1) 如果 $n$ 是奇数，则 $median=\frac{n+1}{2}$ 最大观察值；

2）如果 $n$ 是偶数，则 $median=[\frac{n}{2} +(\frac{n}{2} +1)]$ 观察值的平均；

例如：如果 $n=7$ ,则 $median=4th 最大样本点$ ； $如果n=24,则median=(12th+13th)的最大样本点的平均；$

2.1.3 茎叶图(stem-and-leaf plots)

如何轻松地计算中位数？我们需要对数据进行排序以获得第12个和第13个最大的点，有一个更简单的方法是计算茎叶图。将每个数据值分成一个叶（意义最小的数字）和一个茎（意义最大的数字），并将所有具有相同茎的数据点收集在同一行上。例如，数字195有一个茎19和一个叶5。下面给出了之前测量的茎叶图。

我们增加了一个累积总数列，该列显示了在该行中茎值≤该行茎值的所有点的总数。从茎叶图中计算中位数是很容易的，因为中位数 = 第12个和第13个最大值的平均值 = (178 +180）/ 2 =179 。请注意，同一行（茎）内的叶子（叶）不一定按顺序排列。茎叶图的一个用途是提供两个不同数据集中值的视觉比较。以下是低于和高于中位数的人群胆固醇变化的茎叶图：

各个子组的变化值看起来相当不同；初始值高于中位数的子组显示出更大的变化。我们将能够通过t检验（将在教材第8章中介绍）来测试平均改变值是否“显著不同”。

2.1.4 百分位数(percentiles)

我们也可以使用茎叶图来获得分布的百分位数。要计算第 $p$ 百分位数，

（1）如果 $np/100$ 是一个整数，那么取位置 $np$ 的值和 $np+1$ 位置的大的观察值的平均值即第 $p$ 个百分位数；

（2）如果 $np/100$ 不是一个整数，而 $k$ 是＜ $np/100$ 的最大整数，则第 $k+1$ 个最大样本点即第 $p$ 个百分位数。

常用的百分位数有：四分位数（25，50及75），五分位数（20，40，60，80）及百分位数（10，20，30…，90）。

优点：

1. 总是保证有50%的数据值位于中位数的一侧。

2. 对异常值（极端值）不敏感。如果胆固醇值中的一个从200增加到800，中位数仍然保持在179，但平均值会从188 mg/dL增加至188+25=213 mg/dL。

缺点：

1. 如果分布是高斯分布，它对中间位置的估计不如算术平均数那样恰当，因为它主要对分布的中间部分敏感。

2. 大多数统计程序都是建立在算术平均数的基础之上。

2.1.5 几何均值(Geometric Mean)

解决算术平均数缺点的一种方法是将数据转换成不同的尺度，使得分布更加对称，并在新的尺度上计算算术平均数。最流行的这种尺度是自然对数（ $\ln x$ 或 $\log_e$ ）尺度：

$ln(x_1),...,ln(x_n)$

然后在这个尺度上计算均值并且表示为

$\overline{lnx}=\frac{ln(x_1)+...+ln(x_n)}{n}$

这样做的问题是，平均值是在自然对数尺度上，而不是原始尺度上。因此，我们对 $\overline{lnx}取反对数$

$GM=e^\overline{lnx}= 几何均数$

视网膜电图（ERG，electroretinogram）振幅（微伏）是衡量视网膜电活动的一个指标，用于监测患有视网膜色素变性（一种常见的致盲性眼病）患者的视网膜功能。以下数据是从10名患者身上收集的，用于在1年的时间内监测病情的发展。

每年数值的分布高度倾斜，变化分数主要受第一年ERG振幅较高的人群影响。在自然对数尺度上的分布则更加对称。让我们计算第一年和第二年的几何平均数（GM）。

year 1 $\overline{lnx}=\frac{ln(1.9)+...+ln(6.3)}{10} =1.8144$

$GM_1=e^1.8144=6.137\mu V$

year 2 $\overline{ln(x)}=\frac{ln(1.4)+...+ln(3.5)}{10} =1.5508$

$GM_2=e^1.5508=4.715\mu V$

我们可以通过以下方式量化百分比变化

$\frac{GM_2}{GM_1} =\frac{4.715}{6.137}=0.768\approx 23.2%$ %下降(=100% $\times$ (1-0.768))

因此，ERG（视网膜电图）振幅平均在一年内下降了23.2%。

优势

1.对某些倾斜分布有用。

2.可以在对数尺度上使用标准的统计程序。

缺点

1.不适用于对称数据。

2.对异常值比中位数敏感但不及算术平均数。

2.2 离散性的测度（measures of spread）

2.2.1 极差（range）

一个样本中最大与最小观察值之间的差异称为极差（range）。

2.2.2 近似范围（quasi-range）

近似范围类似于极差，但在两侧去除特定的样本百分比；例如10%到90%。例如胆固醇数据

10%样本点=从最小到第3最大样本点=151mg/dL

90%样本点=从最大到第3最大样本点=238mg/dL

近似范围=（151,238）

2.2.3 标准差（standard Deviation）和方差(Variance)

如果分布是正态分布或近似正态分布，那标准差通常用于离散性测量。

$S^2=sample variance =\sum_{i=1}^{n}\frac{(x_i-\overline{x})^2}{n-1}$

$s=sample standard deviation variance = \sqrt[]{s^2}$

为什么使用标准差而不是方差？

我们希望描述离散程度的统计量与算术均数（ $\overline{x}$ ）单位相同,便于直接比较，而方差不行。如果单位转换 $\times C$ ，转换后的数据称为 $y$ ,则

$\overline{y}=c\overline{x}$ $s_y=cs_x$ 但是 $s_y^2=c^2S_x^2$

如果分布成正态分布，那我们可以用 $\overline{x}$ 和 $s$ 得到分布的离散程度的印象。

$\overline{x}\pm s$ 大约占分布的2/3

$\overline{x}\pm 2s(更准确是1.96s)$ 大约占分布的95%

$\overline{x}\pm 2.5s(更准确是2.576s)$ 大约占分布的99%

假设分布不是正态分布，那用 $\overline{x}$ 和 $s$ 不足以描述分布的特征，这种情况最好使用百分位数（例如用中位数代替均值，近似范围代替标准差）。

2.2.4 变异系数（coefficient of Variation,CV）

$CV = 100\% \times \frac{s}{\overline{x}}$

如果变异认为与均值相关时使用。

2.3 数据描述的其他方式

2.3.1 频率分布(frequency distribution)

频率分布是一个列出每个数值及其出现频率的列表（或者，除了频率之外，还包括与每个数值相关联的得分的百分比）。这种划分是以原始数值为基础，也是以分组的形式；例如，如果我们将胆固醇变化分数按10毫克的增量进行分组，那么我们会有

频率分布既可以以数据的形式也可以以图形的形式描述。如果图形的形式，通常用条形图表示。

2.3.2 箱线图

另一种通常用计算机软件包描述数据的图形技术是箱线图（Box plot）。箱线图的箱体（矩形）显示了上四分位数和下四分位数、中位数、算术平均数以及异常值（如果有的话）。这是一种简洁的方式来观察数据分布的对称性和范围。

生物统计学笔记01 2024-12-18

生物统计学笔记01 2024-12-18

第二章描述性统计

2.1 位置测度(measures of location)

2.1.1 算术均数(Arithmetic Mean)：

2.1.2 算术均数的替代——中位数(Median)：

2.1.3 茎叶图(stem-and-leaf plots)

2.1.4 百分位数(percentiles)

2.1.5 几何均值(Geometric Mean)

2.2 离散性的测度（measures of spread）

2.2.1 极差（range）

2.2.2 近似范围（quasi-range）

2.2.3 标准差（standard Deviation）和方差(Variance)

2.3 数据描述的其他方式

2.3.1 频率分布(frequency distribution)

2.3.2 箱线图

推荐阅读更多精彩内容

生物统计学笔记01 2024-12-18

第二章 描述性统计

2.1 位置测度(measures of location)

2.1.1 算术均数(Arithmetic Mean)：

2.1.2 算术均数的替代——中位数(Median)：

2.1.3 茎叶图(stem-and-leaf plots)

2.1.4 百分位数(percentiles)

2.1.5 几何均值(Geometric Mean)

2.2 离散性的测度（measures of spread）

2.2.1 极差（range）

2.2.2 近似范围（quasi-range）

2.2.3 标准差（standard Deviation）和方差(Variance)

2.3 数据描述的其他方式

2.3.1 频率分布(frequency distribution)

2.3.2 箱线图

推荐阅读更多精彩内容

第二章描述性统计