第5章 连续概率分布
用力呼气量(FEV,forced expiratory volume)是衡量肺功能的一个重要指标,代表在肺功能测试中1秒钟内呼出的气体量。根据Tecumseh研究,10至14岁儿童的FEV分布平均为2.28升,标准差为0.56升。我们如何定义这个年龄段的异常肺功能呢?我们可以选择低于5%或10%的分位数,或者我们可以选择某个绝对标准,如低于1.5升,并找出低于这个临界点的人群比例。无论哪种情况,我们都需要对基础分布做出假设来计算这些概率。为了实现这一点,我们需要发展概率密度函数的概念。
5.1概率密度函数
对分布取几个离散的值,我们可以定义概率为特定的事件;例如4色板中成功的次数的概率分别为。对连续分布,存在实际上无限多的可能性,这些是无法一一列举的。我们如何描述这些分布?利用概率密度函数。概率密度函数
具有下列属性:
1.=当
接近0时,在
处概率的密度。
2.密度曲线下总面积必须等于1。
3.从a到b密度曲线下面积=。
例如:在10至14岁的儿童中,随着距离2.28越远,处于特定区域的概率会变小。
除了在正态分布等特殊情况下,密度曲线不一定非得是对称的。
5.2 连续随机变量的期望与方差
在第4章中,我们学习了离散型随机变量
连续型随机变量也有一个类似的定义:
在这两种情况下,表示随机变量的平均值,
表示随机变量离均值的平均平方距离。
5.3 正态分布概率的密度函数
正态分布是最常用的连续分布。它的概率密度函数如下
并且表示为分布。许多随机变量只能取正值,但仍然可以用正态分布很好地近似,因为取小于0的值的概率是不重要的。
是正态分布概率密度函数的两个参数。这是分布的均值和方差。
5.4 正态分布的经验和对称性质
1.分布关于对称。
2.正态分布密度函数曲线的拐点分别位于和
。
3.正态分布密度函数曲线的高度与σ成反比。
4.概率,那正态分布随机变量将落在
以内
概率%,那正态分布随机变量将落在
以内(实际是
)
概率99%,那正态分布随机变量将落在
以内(实际是
)
例如:在10-14岁儿童的FEV近似的正态分布。
5.5标准正态分布概率的计算
假设我们想计算10-14岁儿童FEV。应该怎么做呢?我们首先计算标准正态分布的概率,即均值为0,方差为1的正态分布。在教材附录表3中,A列,我们可以对标准正态分布正的
取=累计密度函数=
对负的,我们利用对称关系,
,总之,
。
例如:假设,
,
,
,
是多少?(波浪号~代表服从分布)
查表3可得:
=
=0.9394
=0.0606
=
=0.9970-0.9394=0.0576
=
=
=0.9970+0.9394-1
=0.9364
一般情况下,我们对正态分布不区分和
,因为连续分布中特定值的概率(即
)为零。
5.6 一般正态分布概率的计算
假设我们计算正态分布此处
。我们利用下面标准化的原则:
=
那8.2%的儿童FEV<1.5L。
5.7逆正态分布
1.我们定义为标准正态分布的第
百分位数。我们称函数
为逆正态分布函数。随机变量
服从标准正态分布时,
的概率为
,即
。
2.对于均值为、方差为
的一般正态分布,其
分位数为
+
。
例如:10-14岁儿童的用力呼气容积(FEV)分布的第5百分位数是多少?根据教材附录中的表3,标准正态分布的第5百分位数为-1.645。因此,FEV分布的第5百分位数=2.28-1.645×0.56=1.36(L)。因此,区间(FEV<1.36 L)是另一种用来规定FEV值异常范围的方法。
5.8正态分布电子表格的使用
糖化血红蛋(Hemoglobin A1c,HgbA1c)常被用作评估胰岛素依赖型糖尿病患者是否遵医嘱的指标。假设对于那些严格遵医嘱注射胰岛素的糖尿病患者,其HgbA1c水平呈正态分布,均值为8,标准差为2.5。一位糖尿病患者到诊所就诊时,其HgbA1c水平为12。这是否表明该患者没有遵医嘱注射胰岛素?
为了回答这个问题吗,我们将计算HgbA1c,
。我们可用Excel的函数NORMDIST计算。NORMDIST 函数有四个参数(表示为 NORMDIST(
,
,
,
)),其中当 TYPE = TRUE 时表示需要累积分布函数(cdf),当 TYPE = FALSE 时表示需要概率密度函数(pdf)。因此,
因此,为了解出此题,我们要先计算,然后用1减去电子表格中显示的数字。因此
因此,这是一个稍微不常见的事件,表明患者可能没有完全遵从他们的胰岛素注射治疗。
假设我们将遵医嘱患者分布的前1%的个体视为“肯定不依从”,那么这个范围的值是多少呢?我们可用Excel函数NORMINV实现。通常,NORMINV(,
,
) 给出具有均值 =
和标准差 =
的正态分布的第
百分位数。因为,我们指定NORMINV(0.99,8,2.5)并取
(参见下列电子表格)。因此,HgbA1c的值
明确表示为非依从性。请注意,使用 NORMDIST 和 NORMINV 函数,我们可以直接对任何正态分布进行计算,而不必像使用正态分布表(例如附录中的表3)时那样参考标准正态分布。
如果我们有特定的原因需要指定标准正态分布,那么我们可以使用Excel函数NORMSDIST和NORMSINV。例如,国家卫生统计中心使用分数量化以比较特定年龄-性别为基准的儿童的体重。体重
分数 = (儿童体重 -
)/
,其中
和
分别是与该儿童相同年龄性别组儿童的平均体重和标准差。假设一个儿童的体重
分数为1.5。那个儿童的体重百分位数是多少?我们可以通过计算 NORMSDIST(1.5) =
(1.5) =
= 0.933(参见电子表格)。因此,这个孩子在他们年龄性别组的第93百分位数,那么他们的体重
分数=
并且给定的NORMSINV(0.10)=
(参见电子表格)。
5.9正态分布对二项分布的近似
在出现双侧积液(即两只耳朵的中耳都有液体)的儿童中,如果未经治疗,大约有2/3的儿童在4周后仍然会有双侧积液。假设使用抗生素治疗后,198名儿童中有118名(59.6%)在4周后仍然有双侧积液。治疗是否真的有益,还是这些结果可能仅仅是偶然造成的? 设经过4周治疗后仍然有双侧积液的儿童数量。 通常
;换言之,
X 将服从参数为
和
的二项分布。假设治疗根本没有效果。在这种情形之下,
,
。我们想要知道,如果治疗完全没有效果,118名或更少的儿童会有双侧积液的概率。这可以通过以下式计算得出:
这个计算过程非常繁琐,因此我们使用正态分布对二项分布的近似来代替。
我们用具有相同均值()和方差(
)的正态随机变量
来近似二项随机变量
;Y~N(np,npq)分布。这种近似方法仅应在npq≥5时使用。在这些条件下,
注意:由于 是一个连续型随机变量,而
是一个离散型随机变量,因此可以忽略
的等号,但不能忽略
的等号。
示例:中耳积液。我们希望计算。已知
。因此,我们可以使用正态近似。
例如:色板试验 假设我们确诊100人组成的一组有特定类型色盲的人。我们给每个人做一次色板试验,发现有32人能正确识别出色板的象限。他们的表现是否明显好于随机水平?
如果他们是随机选择象限,那么(正确选择的数量)将服从参数为
的二项分布。由于
,我们可以使用正态近似。我们用均值为
和方差为
的正态分布
来近似
。我们按照以下方式计算
:
这与随机结果没有显著差异。
5.10 正态分布近似Poisson分布
假设我们正在研究一种特定类型的流感。通常,该州每年会发生150例病例。我们观察到2004年有200例病例。这是一个不寻常的现象吗?我们假设(一年内发生的病例数)服从参数
的泊松分布。我们希望基于泊松分布计算
。这将非常繁琐。反而,我们使用正态近似。我们用
来近似
,其中
。具体来说,
这种近似方法仅应在时使用。
例如:流感
因此,2004年病例数量明显增多。