第4章 离散概率分布
4.1 随机变量
随机变量是一个数值量,它以不同的概率取特定的值。值与它们对应的概率之间的关系称为概率质量函数。
例如:色盲测试 假设我们对一个受试者进行4次色盲测试。我们想要确定如果该受试者是色盲的话,在4次测试中正确选择特定数量(k)的概率。正确选择的数量是一个随机变量,它可以取0, 1, ..., 4这些值,对应的概率分别是
。我们可以使用二项分布来获得这种情况下正确选择数量的概率质量函数(或概率分布)。
4.2 组合,排列和阶乘
为了理解二项分布,我们首先需要讨论排列和组合的概念的关系。
组合
不考虑选取顺序的情况下,从个对象中选取
个对象的方式的数量。组合可表示
或
,并且指的是从
个元素中每次取
个元素的数量。可证明下列等式成立
例如:假设在一个阅读中心有4位阅读者,他们都有资格对一张具有糖尿病视网膜病变特征的照片进行评分。每张幻灯片需要由2位阅读者进行阅读。读者的选择组合数是
排列
考虑选取顺序的情况下,从个元素中选取
个元素的方式数量定义为排列。排列可表示为
,并且指的是一次从
个元素中选取
个排列数。可证明下列等式成立
例如:假设在一个关于血清胆固醇的膳食研究中,受试者将在第1阶段和第2阶段分别接受4种可能膳食(假设为A、B、C和D)中的不同膳食方案。由于膳食实施顺序可能很重要,膳食分配给受试者的方式数量是种。
阶乘
这个特殊的符号用于表示
称为
的阶乘。例如:
;
。按照惯例,
.组合也可用阶乘表示如下:
例如:
4.3二项概率分布
二项概率分布由以下公式给出
我们可用这个分布将次试验中成功
次的概率分布做成模型,此处每次试验成功的概率为
,失败的概率为
,并且每次试验之间是独立的。
我们可以用阶乘来表示二项分布,如下所示:
例如:上述以色板为例中,4次试验中获得2次成功的概率是多少?在这种情况下,,且
4.4使用二项分布的方法
1.根据4.3节的公式计算各个概率(蛮力法)
2.利用二项分布表(教材附表1给定的值)
3.利用计算机程序如Excel和MINITAB 提供的电子表格
4.利用Poisson分布近似二项分布(在33页有详细说明)。利用假设
5.利用正态分布近似二项分布(在47页有详细说明)。利用假设
4.5节 利用电子表
例如,假设我们研究色盲试验,设我们希望对生成所有的二项分布的概率,也就是
我们可以用Excel的BINOMDIST函数轻易地计算它们的每一个概率。这个函数可以对任一值同时计算特定的二项分布的概率例如
,也可以计算累计概率例如
。在这种情况下,请注意概率可以从二项分布表获得(参见教材附表1)。
要使用这个函数,我们必须指定以及一个逻辑参数
。如果需要累积概率,则
应设为 TRUE;如果需要特定概率,则
应设为 FALSE。在上述例子中为了计算
,我们设
如下电子表格所示。为计算
,我们设
。电子表格的优点是我们能对二项分布的任一
计算,不只表格1这些。关于使用这个函数的更多细节在附录中给出。在MINITAB软件中,CALC菜单下的“概率分布”子菜单里提供了一个类似的函数。
4.6 二项分布的期望
与我们使用样本均值作为样本位置度量的方法类似,我们使用“总体均值”或期望值(用或
表示)作为随机变量的位置度量。
对一般的随机变量,
也就是说,期望值是个可能值的加权平均数,这些值由它们各自的概率加权。
对于二项分布,一般公式简化为:
例如,设我们给100位色盲人士每人做一次色盲测试。
我们预计会有25名色盲人士在100人中通过测试。
4.7二项分布的方差
我们也可以用方差描述随机变量的离散度量,表示为 和定义为
与样本方差 相对的是总体方差。它表示每个可能值与均值之间的平均平方距离,按其发生的概率加权。它让我们了解可能值相对于均值(或期望值)的分布范围。 随机变量的标准差定义如下
对二项分布,一般公式简化为
假设
对于给定的,当
时,二项分布的变异性最大;而当
接近 0 或 1 时,变异性最小。
4.8 Poisson分布
假设一家医院在很长一段时间内观察到每两年出现1例罕见癌症病例。突然之间,它在一年内出现了3例。这种情况有多不可能发生,或者更具体地说,一年内至少出现3例病例的概率是多少?
已知这家医院服务了大量的人,但不知道确切的人数。泊松分布可以用来模拟在年时间段内病例数的概率分布。
假设
1.每单位时间内的病例数,并且
是时间的一个小的增量。
2.平稳性;即在整个时间周期中单位时间新病例发生的频率。
3.独立性;不同时间间隔事件的概率是独立随机变量。
在这些假设下,
此处
在本例中,=1,
,所以
。我们想
我们有
1年内出现3个或更多病例的可能性不大。
4.9 Poisson分布概率电子表格的使用
我们可以使用泊松分布表(附录中的表2)来获得选定的值下的泊松分布概率。这个分布的参数通过单个参数
。对于表中没有的
值,我们可以使用电子表格,例如Excel中的POISSON函数。使用这个函数,我们可以通过设置逻辑运算符
=FALSE来计算单个泊松概率,也可以通过设置
=TRUE来计算累积泊松概率(关于
的进一步讨论见第4.5节)。例如,让我们使用Excel来计算在一年内观察到3个或更多事件的概率,如果发病率是每两年1个案例。我们有λ=0.5,T=1,λT=μ=0.5:
下表显示了泊松分布的单个概率和累积概率。
4.10 Poisson分布的期望和方差
判断一个分布是否可能是泊松分布的一个好方法是比较样本均值和样本方差。如果这两个量大致相等,那么泊松分布通常能够很好地拟合数据。
4.11 Poisson分布近似二项分布
假设我们可以通过参数
的泊松分布来近似参数为
的二项分布。使用这种近似的原因是泊松分布比二项分布更容易使用,尤其是当
较大时。具体来说,对于给定的
,我们近似二项分布的概率:
通过 计算
。