生物统计学笔记01 2024-12-18

第二章 描述性统计

2.1 位置测度(measures of location)

2.1.1 算术均数(Arithmetic Mean):

        所有观察值的和除以观察个数。

                                          \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + \cdots + x_n}{n}

例如:表2.1中调整饮食前平均胆固醇水平计算如下:

                                            \sum_{i=1}^{24} x_i = 4507, \quad \overline{x} = \frac{4507}{24} = 187.8 \, \text{mg/dL}

优点:

1.代表所有的样本点;

2.如果分布对称,如高斯分布(钟形曲线),算术均数是一个有效的位置测度(位于中心)。

3.多数统计检验是以算术均数为基础。

缺点:

1.对极端值敏感,尤其是小样本。

2.如果分布不对称,如偏态分布,那么是不适用的。

2.1.2 算术均数的替代——中位数(Median):

在一个样本中包含有n个观察值,并且这些观察值是从小到大排序,则中位数的定义如下:

1) 如果n是奇数,则median=\frac{n+1}{2} 最大观察值;

2)如果n是偶数,则median=[\frac{n}{2} +(\frac{n}{2} +1)]观察值的平均;

例如:如果n=7,则median=4th 最大样本点;   如果n=24,则median=(12th+13th)的最大样本点的平均;

2.1.3 茎叶图(stem-and-leaf plots)

如何轻松地计算中位数?我们需要对数据进行排序以获得第12个和第13个最大的点,有一个更简单的方法是计算茎叶图。将每个数据值分成一个叶(意义最小的数字)和一个茎(意义最大的数字),并将所有具有相同茎的数据点收集在同一行上。例如,数字195有一个茎19和一个叶5。下面给出了之前测量的茎叶图。

我们增加了一个累积总数列,该列显示了在该行中茎值≤该行茎值的所有点的总数。从茎叶图中计算中位数是很容易的,因为中位数 = 第12个和第13个最大值的平均值 = (178 +180)/ 2 =179  。请注意,同一行(茎)内的叶子(叶)不一定按顺序排列。茎叶图的一个用途是提供两个不同数据集中值的视觉比较。以下是低于和高于中位数的人群胆固醇变化的茎叶图:

各个子组的变化值看起来相当不同;初始值高于中位数的子组显示出更大的变化。我们将能够通过t检验(将在教材第8章中介绍)来测试平均改变值是否“显著不同”。

2.1.4 百分位数(percentiles)

我们也可以使用茎叶图来获得分布的百分位数。要计算第p百分位数,

(1)如果np/100是一个整数,那么取位置np的值和np+1位置的大的观察值的平均值即第p个百分位数;

(2)如果np/100不是一个整数,而k是<np/100的最大整数,则第k+1个最大样本点即第p个百分位数。

常用的百分位数有:四分位数(25,50及75),五分位数(20,40,60,80)及百分位数(10,20,30…,90)。

优点:

1. 总是保证有50%的数据值位于中位数的一侧。

2. 对异常值(极端值)不敏感。如果胆固醇值中的一个从200增加到800,中位数仍然保持在179,但平均值会从188 mg/dL增加至188+25=213 mg/dL。

缺点:

1. 如果分布是高斯分布,它对中间位置的估计不如算术平均数那样恰当,因为它主要对分布的中间部分敏感。

2. 大多数统计程序都是建立在算术平均数的基础之上。

2.1.5 几何均值(Geometric Mean)

解决算术平均数缺点的一种方法是将数据转换成不同的尺度,使得分布更加对称,并在新的尺度上计算算术平均数。最流行的这种尺度是自然对数(\ln x \log_e )尺度:

                              ln(x_1),...,ln(x_n)

然后在这个尺度上计算均值并且表示为            

                             \overline{lnx}=\frac{ln(x_1)+...+ln(x_n)}{n}

这样做的问题是,平均值是在自然对数尺度上,而不是原始尺度上。因此,我们对 \overline{lnx}取反对数

                             GM=e^\overline{lnx}= 几何均数

视网膜电图(ERG,electroretinogram)振幅(微伏)是衡量视网膜电活动的一个指标,用于监测患有视网膜色素变性(一种常见的致盲性眼病)患者的视网膜功能。以下数据是从10名患者身上收集的,用于在1年的时间内监测病情的发展。

每年数值的分布高度倾斜,变化分数主要受第一年ERG振幅较高的人群影响。在自然对数尺度上的分布则更加对称。让我们计算第一年和第二年的几何平均数(GM)。

year 1          \overline{lnx}=\frac{ln(1.9)+...+ln(6.3)}{10} =1.8144

                  GM_1=e^1.8144=6.137\mu V

year 2       \overline{ln(x)}=\frac{ln(1.4)+...+ln(3.5)}{10} =1.5508

                  GM_2=e^1.5508=4.715\mu V

我们可以通过以下方式量化百分比变化

\frac{GM_2}{GM_1} =\frac{4.715}{6.137}=0.768\approx 23.2%%下降(=100%\times (1-0.768))

因此,ERG(视网膜电图)振幅平均在一年内下降了23.2%。

优势

1.对某些倾斜分布有用。

2.可以在对数尺度上使用标准的统计程序。

缺点

1.不适用于对称数据。

2.对异常值比中位数敏感但不及算术平均数。

2.2 离散性的测度(measures of spread)

2.2.1 极差(range)

一个样本中最大与最小观察值之间的差异称为极差(range)。

2.2.2 近似范围(quasi-range)

近似范围类似于极差,但在两侧去除特定的样本百分比;例如10%到90%。例如胆固醇数据

10%样本点=从最小到第3最大样本点=151mg/dL

90%样本点=从最大到第3最大样本点=238mg/dL

近似范围=(151,238)

2.2.3 标准差(standard Deviation)和方差(Variance)

如果分布是正态分布或近似正态分布,那标准差通常用于离散性测量。

S^2=sample variance =\sum_{i=1}^{n}\frac{(x_i-\overline{x})^2}{n-1}

s=sample standard deviation variance = \sqrt[]{s^2}

为什么使用标准差而不是方差?

我们希望描述离散程度的统计量与算术均数(\overline{x})单位相同,便于直接比较,而方差不行。如果单位转换\times C,转换后的数据称为y,则

                \overline{y}=c\overline{x}          s_y=cs_x 但是 s_y^2=c^2S_x^2

如果分布成正态分布,那我们可以用\overline{x} 和s 得到分布的离散程度的印象。

\overline{x}\pm s 大约占分布的2/3

\overline{x}\pm 2s(更准确是1.96s)大约占分布的95%

\overline{x}\pm 2.5s(更准确是2.576s)大约占分布的99%

假设分布不是正态分布,那用\overline{x} 和s 不足以描述分布的特征,这种情况最好使用百分位数(例如用中位数代替均值,近似范围代替标准差)。

2.2.4 变异系数(coefficient of Variation,CV)

                    CV = 100\% \times \frac{s}{\overline{x}}

如果变异认为与均值相关时使用。

2.3 数据描述的其他方式

2.3.1 频率分布(frequency distribution)

频率分布是一个列出每个数值及其出现频率的列表(或者,除了频率之外,还包括与每个数值相关联的得分的百分比)。这种划分是以原始数值为基础,也是以分组的形式;例如,如果我们将胆固醇变化分数按10毫克的增量进行分组,那么我们会有

频率分布既可以以数据的形式也可以以图形的形式描述。如果图形的形式,通常用条形图表示。

2.3.2 箱线图

另一种通常用计算机软件包描述数据的图形技术是箱线图(Box plot)。箱线图的箱体(矩形)显示了上四分位数和下四分位数、中位数、算术平均数以及异常值(如果有的话)。这是一种简洁的方式来观察数据分布的对称性和范围。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,458评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,030评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,879评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,278评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,296评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,019评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,633评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,541评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,068评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,181评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,318评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,991评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,670评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,183评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,302评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,655评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,327评论 2 358

推荐阅读更多精彩内容