生物统计学笔记04 2025-01-16

第5章 连续概率分布

用力呼气量(FEV,forced expiratory volume)是衡量肺功能的一个重要指标,代表在肺功能测试中1秒钟内呼出的气体量。根据Tecumseh研究,10至14岁儿童的FEV分布平均为2.28升,标准差为0.56升。我们如何定义这个年龄段的异常肺功能呢?我们可以选择低于5%或10%的分位数,或者我们可以选择某个绝对标准,如低于1.5升,并找出低于这个临界点的人群比例。无论哪种情况,我们都需要对基础分布做出假设来计算这些概率。为了实现这一点,我们需要发展概率密度函数的概念。

5.1概率密度函数

 对分布取几个离散的值,我们可以定义概率为特定的事件;例如4色板中成功的次数的概率分别为Pr(0),Pr(1),...,Pr(4)。对连续分布,存在实际上无限多的可能性,这些是无法一一列举的。我们如何描述这些分布?利用概率密度函数。概率密度函数f(x) 具有下列属性:

1.f(x)\cong \frac{Pr(x<X<x+\Delta x)}{\Delta x} =当\Delta x 接近0时,在x 处概率的密度。

2.密度曲线下总面积必须等于1。

3.从a到b密度曲线下面积=Pr(a<X<b)

例如:在10至14岁的儿童中,随着距离2.28越远,处于特定区域的概率会变小。

除了在正态分布等特殊情况下,密度曲线不一定非得是对称的。



5.2 连续随机变量的期望与方差

 在第4章中,我们学习了离散型随机变量

E(X)=\Sigma x_iPr(X=x_i)=\mu

Var(X)=\Sigma (x_i-\mu )^2Pr(X=x_i)=\sigma ^2

连续型随机变量也有一个类似的定义:

E(X)=\int_{-\propto }^{\propto } xf(x)dx=\mu

Var(X)=\sigma^2=\int_{-\propto }^{\propto } (x-\mu )^2f(x)dx

在这两种情况下,\mu 表示随机变量的平均值,\sigma^2表示随机变量离均值的平均平方距离。

5.3 正态分布概率的密度函数

正态分布是最常用的连续分布。它的概率密度函数如下

f(x)=\frac{1}{\sqrt{2\pi \sigma } } exp[-\frac{1}{2}(\frac{x-\mu }{\sigma } )^2],-\propto <x<\propto

并且表示为N(\mu ,\sigma ^2)分布。许多随机变量只能取正值,但仍然可以用正态分布很好地近似,因为取小于0的值的概率是不重要的。\mu ,\sigma ^2是正态分布概率密度函数的两个参数。这是分布的均值和方差。

5.4 正态分布的经验和对称性质

1.分布关于\mu 对称。

2.正态分布密度函数曲线的拐点分别位于μ+σμ−σ

3.正态分布密度函数曲线的高度与σ成反比。

4.概率\cong \frac{2}{3} ,那正态分布随机变量将落在\mu \pm 1\sigma 以内

概率\cong 95%%,那正态分布随机变量将落在\mu \pm 2\sigma 以内(实际是\mu \pm 1.96\sigma

概率\cong 99%,那正态分布随机变量将落在\mu \pm 2.5\sigma 以内(实际是\mu \pm 2.576\sigma


例如:在10-14岁儿童的FEV近似\mu =2.28L,\sigma =0.56L的正态分布。


5.5标准正态分布概率的计算

假设我们想计算10-14岁儿童FEVPr(X<1.5L)。应该怎么做呢?我们首先计算标准正态分布的概率,即均值为0,方差为1的正态分布。在教材附录表3中,A列,我们可以对标准正态分布正的x

\Phi (x)=累计密度函数=\int_{-\propto }^{x} f(x)dx=Pr(X\leq x)

对负的x,我们利用对称关系,\Phi (x)=1-\Phi (-x),总之,

Pr(a\leq X\leq b)=\Phi (b)-\Phi (a)


例如:假设X \sim N(0, 1)Pr(X\leq 1.55),Pr(X\geq 1.55)Pr(1.55\leq X\leq 2.75),Pr(-1.55\leq X\leq 2.75) 是多少?(波浪号~代表服从分布)

查表3可得:

Pr(X\leq 1.55)=\Phi (1.55)=0.9394

Pr(X\geq 1.55)=1-\Phi (1.55)=0.0606

Pr(1.55\leq X\leq 2.75)=\Phi (2.75)-\Phi (1.55)

                                                =0.9970-0.9394=0.0576

Pr(-1.55\leq X\leq 2.75)=\Phi (2.75)-\Phi (-1.55)

                                                     =\Phi (2.75)-[1-\Phi (1.55)]

                                                       =\Phi (2.75)+\Phi (1.55)-1

                                                        =0.9970+0.9394-1

                                                         =0.9364

一般情况下,我们对正态分布不区分Pr(X<x)Pr(X\leq x),因为连续分布中特定值的概率(即 Pr(X=x))为零。


5.6 一般正态分布概率的计算

假设我们计算正态分布Pr(a<X<b)此处X \sim N(\mu , \sigma ^2)。我们利用下面标准化的原则:

Pr(a<X<b)=\Phi (\frac{b-\mu }{\sigma } )-\Phi (\frac{a-\mu }{\sigma } )

Pr(X<a)=\Phi (\frac{a-\mu }{\sigma } )

Pr(X>b)=1-Pr(X</p><p>因此,所有对一般正态分布的计算都可以基于标准正态分布的百分位数来进行,比如教材附录表3中给出的那些百分位数。</p><p>例如:10-14岁儿童的FEV</p><p><img class=

那8.2%的儿童FEV<1.5L。

5.7逆正态分布

1.我们定义z_p为标准正态分布的第p百分位数。我们称函数z_p为逆正态分布函数。随机变量Z服从标准正态分布时,Z\leq Z_P的概率为p,即\Phi (Z_P)=p

2.对于均值为\mu 、方差为\sigma ^2的一般正态分布,其p分位数为\mu +Z_p\sigma


例如:10-14岁儿童的用力呼气容积(FEV)分布的第5百分位数是多少?根据教材附录中的表3,标准正态分布的第5百分位数为-1.645。因此,FEV分布的第5百分位数=2.28-1.645×0.56=1.36(L)。因此,区间(FEV<1.36 L)是另一种用来规定FEV值异常范围的方法。


5.8正态分布电子表格的使用

糖化血红蛋(Hemoglobin A1c,HgbA1c)常被用作评估胰岛素依赖型糖尿病患者是否遵医嘱的指标。假设对于那些严格遵医嘱注射胰岛素的糖尿病患者,其HgbA1c水平呈正态分布,均值为8,标准差为2.5。一位糖尿病患者到诊所就诊时,其HgbA1c水平为12。这是否表明该患者没有遵医嘱注射胰岛素?

为了回答这个问题吗,我们将计算X=HgbA1c,\Pr\left[ X > 12 \mid X \sim \mathcal{N}\left(8, 2.5^2\right) \right]。我们可用Excel的函数NORMDIST计算。NORMDIST 函数有四个参数(表示为 NORMDIST(x, mean, sd, TYPE)),其中当 TYPE = TRUE 时表示需要累积分布函数(cdf),当 TYPE = FALSE 时表示需要概率密度函数(pdf)。因此,

\text{NORMDIST}(x, \mu, \sigma, \text{TRUE}) = \Pr\left[X \leq x \mid X \sim N(\mu, \sigma^2)\right]\

\text{NORMDIST}(x, \mu, \sigma, \text{FALSE}) = f(x) \mid X \sim N(\mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}

因此,为了解出此题,我们要先计算\Pr[X \leq 12 \mid X \sim N(8, 2.5^2)] = \text{NORMDIST}(12, 8, 2.5, \text{TRUE}),然后用1减去电子表格中显示的数字。因此

                             \Pr(X > 12) = 1 - 0.945 = 0.055.

因此,这是一个稍微不常见的事件,表明患者可能没有完全遵从他们的胰岛素注射治疗。

假设我们将遵医嘱患者分布的前1%的个体视为“肯定不依从”,那么这个范围的值是多少呢?我们可用Excel函数NORMINV实现。通常,NORMINV(p, \mu , \sigma ) 给出具有均值 =\mu 和标准差 = \sigma 的正态分布的第 p 百分位数。因为,我们指定NORMINV(0.99,8,2.5)并取x=13.82(参见下列电子表格)。因此,HgbA1c的值\geq 13.9明确表示为非依从性。请注意,使用 NORMDIST 和 NORMINV 函数,我们可以直接对任何正态分布进行计算,而不必像使用正态分布表(例如附录中的表3)时那样参考标准正态分布。

如果我们有特定的原因需要指定标准正态分布,那么我们可以使用Excel函数NORMSDIST和NORMSINV。例如,国家卫生统计中心使用Z分数量化以比较特定年龄-性别为基准的儿童的体重。体重Z分数 = (儿童体重 -\mu )/\sigma ,其中\mu \sigma 分别是与该儿童相同年龄性别组儿童的平均体重和标准差。假设一个儿童的体重Z分数为1.5。那个儿童的体重百分位数是多少?我们可以通过计算 NORMSDIST(1.5) = \Phi (1.5) =\Pr\left[X \leq 1.5 \mid X \sim \mathcal{N}(0, 1)\right] = 0.933(参见电子表格)。因此,这个孩子在他们年龄性别组的第93百分位数,那么他们的体重Z分数=Z_.10并且给定的NORMSINV(0.10)=z_0.10=-1.28(参见电子表格)。

5.9正态分布对二项分布的近似

在出现双侧积液(即两只耳朵的中耳都有液体)的儿童中,如果未经治疗,大约有2/3的儿童在4周后仍然会有双侧积液。假设使用抗生素治疗后,198名儿童中有118名(59.6%)在4周后仍然有双侧积液。治疗是否真的有益,还是这些结果可能仅仅是偶然造成的? 设X=经过4周治疗后仍然有双侧积液的儿童数量。 通常\Pr(X = k) = \binom{n}{k} p^k q^{n-k};换言之,XX 将服从参数为 n 和 p 的二项分布。假设治疗根本没有效果。在这种情形之下,n=198p=2/3。我们想要知道,如果治疗完全没有效果,118名或更少的儿童会有双侧积液的概率。这可以通过以下式计算得出:

\Pr(X \leq 118) = \sum_{k=0}^{118} \binom{198}{k} \left(\frac{2}{3}\right)^k \left(\frac{1}{3}\right)^{198-k}

这个计算过程非常繁琐,因此我们使用正态分布对二项分布的近似来代替。

我们用具有相同均值(np)和方差(npq)的正态随机变量Y来近似二项随机变量XY~N(np,npq)分布。这种近似方法仅应在npq≥5时使用。在这些条件下,

\Pr(a \leq X \leq b) \approx \Phi\left(\frac{b + \frac{1}{2} - \mu}{\sigma}\right) - \Phi\left(\frac{a - \frac{1}{2} - \mu}{\sigma}\right)

                              =\Phi\left(\frac{b + \frac{1}{2} - np}{\sqrt{npq}}\right) - \Phi\left(\frac{a - \frac{1}{2} - np}{\sqrt{npq}}\right)

\Pr(X \leq a) \approx \Phi\left(\frac{a + \frac{1}{2} - \mu}{\sigma}\right) = \Phi\left(\frac{a + \frac{1}{2} - np}{\sqrt{npq}}\right)

\Pr(X \geq b) = 1 - \Pr(X \leq b - 1) \approx 1 - \Phi\left(\frac{b - \frac{1}{2} - \mu}{\sigma}\right)

                       = 1 - \Phi\left(\frac{b - \frac{1}{2} - np}{\sqrt{npq}}\right)

注意:由于 Y 是一个连续型随机变量,而 X 是一个离散型随机变量,因此可以忽略 Y 的等号,但不能忽略 X 的等号。


示例:中耳积液。我们希望计算 Pr(X≤118)。已知 n=198,p=32,q=31,a=118,np=132,npq=44.5≥5。因此,我们可以使用正态近似。


例如:色板试验 假设我们确诊100人组成的一组有特定类型色盲的人。我们给每个人做一次色板试验,发现有32人能正确识别出色板的象限。他们的表现是否明显好于随机水平?

如果他们是随机选择象限,那么X(正确选择的数量)将服从参数为n=100,p=1/4的二项分布。由于npq=18.75≥5,我们可以使用正态近似。我们用均值为np=25和方差为npq=18.75的正态分布Y来近似X。我们按照以下方式计算Pr(X≥32)

\begin{align*}\Pr(X \geq 32) &\approx \Pr(Y \geq 31.5) = 1 - \Phi\left(\frac{31.5 - 25}{\sqrt{18.75}}\right) \\&= 1 - \Phi\left(\frac{6.5}{4.33}\right) \\&= 1 - \Phi(1.50) = 1 - 0.933 = 0.067 > 0.05\end{align*}

这与随机结果没有显著差异。


5.10 正态分布近似Poisson分布

假设我们正在研究一种特定类型的流感。通常,该州每年会发生150例病例。我们观察到2004年有200例病例。这是一个不寻常的现象吗?我们假设X(一年内发生的病例数)服从参数λ=150,T=1的泊松分布。我们希望基于泊松分布计算Pr(X≥200)。这将非常繁琐。反而,我们使用正态近似。我们用Y∼N(μ,σ2)来近似X,其中μ=λT。具体来说,

\Pr(X = k) \approx \Pr\left(k - \frac{1}{2} \leq Y \leq k + \frac{1}{2}\right) \text{ if } k > 0

\Pr(X = 0) \approx \Pr\left(Y \leq \frac{1}{2}\right)

\Pr(a \leq X \leq b) \approx \Phi\left(\frac{b + \frac{1}{2} - \mu}{\sqrt{\mu}}\right) - \Phi\left(\frac{a - \frac{1}{2} - \mu}{\sqrt{\mu}}\right), \text{ 此处 } a > 0

\Pr(X \leq a) \approx \Phi\left(\frac{a + \frac{1}{2} - \mu}{\sqrt{\mu}}\right)

这种近似方法仅应在 μ≥10 时使用。


例如:流感

\Pr(X \geq 200) \approx \Pr(Y \geq 199.5) = 1 - \Phi\left(\frac{199.5 - 150}{\sqrt{150}}\right) = 1 - \Phi\left(\frac{49.5}{12.25}\right)

                        = 1 - \Phi(4.04) < 10^{-4}

因此,2004年病例数量明显增多。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容