生物统计学笔记02 2024-12-25

第三章 概率

3.1 用频率来定义概率

什么是概率?假设我们想建立一个检测色盲的试验。我们使用一个被均分成四份的圆盘。其中一个份是黑色。其他三个份颜色相同,但与第一份颜色不同。

因此,一个色盲的人随机选择黑色的概率是1/4。“随机”是什么意思?假设这个试验由许多色盲人士进行,得到以下结果:

随着参与试验的色盲人士增加,正确试验的比例将接近一个数字p(本例为0.25),我们称为之概率。

所有的概率必须在0到1之间。概率是通过事件来定义的。如果两个事件不能同时发生,则称为相互排斥事件。相互排斥事件的概率必须相加。例如,假设我们对一个色盲病人重复试验4次。设事件E_1=\frac{1}{4} 正确  E_2=\frac{2}{4} 正确

Pr(E_1)+Pr(E_2)=Pr(E_1 or E_2)=Pr(E_1\cup E_2)

3.2 概率的乘法规则

概率何时可以相乘?设事件A,B定义如下

A=第一次选择是正确的

B=第二次选择是正确的

那么Pr(A\cap B)=两次选择都是正确的概率=    Pr(A)\times Pr(B)=1/16。如果两个事件是相互独立的,那么这两个概率可以相乘。

思考另外一个例子。假设我们有一组6个月大的婴儿,在他们的常规6个月体检中,他们的两只耳朵都是正常的。假设一个月后在特定耳朵中发现有液体的几率是10%,而两只耳朵都受影响(称为“双侧中耳积液”)的概率是0.07。耳朵是独立的吗?不是,因为 Pr(双侧中耳积液)= 0.07 > 0.1 × 0.1。这是一个依赖事件的例子。同一个孩子的两只耳朵的中耳状况是依赖事件,因为通常有一个共同的原因导致两只耳朵同时感染(例如,孩子在日托中心接触到其他受影响的孩子)。

3.3 概率的加法规则

设A=右耳感染,B=左耳感染。Pr(A\cup B)=Pr(任一耳朵感染)是多少?Pr(A\cup B)=Pr(A)+Pr(B)-Pr(A\cap B)

这就是概率的加法规则。例如:

Pr(任一耳朵感染)=0.1+0.1-0.07=0.13;

13%至少一只耳朵感染

7%双侧耳朵积液(两只耳朵同时感染)

6%单侧耳朵积液(只有一只耳朵感染)

以有色圆盘为例,A=第1次选择正确;B=第2次选择正确。

Pr(A\cup B)=Pr(2次中至少1次选择是正确的)

                      =Pr(A)+Pr(B)-Pr(A\cap B)

Pr(A)+Pr(B)-Pr(A)\times Pr(B)

=\frac{1}{4} +\frac{1}{4} -(\frac{1}{4} )^2=\frac{7}{16}

3.4 条件概率

\frac{Pr(A\cap B)}{Pr(A)} 被定义为给定事件A下事件B发生的条件概率,它常记为Pr(B|A)。它对应于事件 A 发生的情况下事件 B 发生的次数所占的比例。以耳朵为例,设A=右耳感染,B=左耳感染,和\overline{A}=右耳未感染

Pr(B|A)=\frac{Pr(A\cap B)}{Pr(A)} =\frac{0.07}{0.10} =70\%=给定事件A下B事件的条件概率

Pr(B|\overline{A})=\frac{Pr(B\cap \overline{A})}{Pr(\overline{A})}=\frac{Pr(B)-Pr(A\cap B)}{0.90} =\frac{0.10-0.07}{0.90} =\frac{0.03}{0.90} =\frac{1}{30} \approx 0.03

总之,Pr(B|A)=给定右耳感染条件下左耳感染的概率=70%;Pr(B|\overline{A})=给定右耳不感染条件下左耳感染的概率=3%。换言之,这些孩子中右耳感染时,左耳也感染的概率为70%。同样,右耳未感染的孩子,只有3%左耳感染。

3.4.1 相对危险度(relative risk)

Pr(B|A)/Pr(B|\overline{A})被定义为给定事件A条件下事件B的相对危险度。例如耳朵这个例子。设A=右耳感染且B=左耳感染,那

相对危险度=RR=Pr(B|A)/Pr(B|\overline{A})=\frac{\frac{7}{10} }{\frac{1}{30} } =21

当右耳感染时左耳也感染的概率是右耳未感染时左耳感染的概率的21倍。

1957年,在明尼苏达州的奥斯汀发生了一起军团病爆发事件。随后的调查将焦点放在了一家肉类包装厂雇员上,作为可能的原因。该镇所有成年人中每1000名受试者的发病率如下表所示:

相对危险度(RR)=9.7/1.6=6.1,,提示肉类包装厂雇员得军团病是非肉类包装厂雇员的6倍。

如果两个事件相互独立,那么Pr(B|A)=Pr(B|\overline{A})=Pr(B)并且RR=1。以有色圆盘为例,设A=第1次选择正确,B=第2次选择正确;Pr(B|\overline{A})=Pr(B)=Pr(B|A)=1/4 并且RR=1。那个无论第1次选择正确与否,第2次选择正确的概率为1/4。

3.5全概率规则

全概率规则阐明了条件概率与无条件概率之间的关系:

Pr(B)=Pr(B|A)Pr(A)+Pr(B|\overline{A})Pr(\overline{A})

总而言之,事件B的无条件概率分别是事件A发生和事件A不发生时事件B的条件概率的加权平均。

例如:在染军团菌病的情况下:A=肉类包装厂的雇员,B=军团菌病。假设Pr(A)=0.19

Pr(B)=\frac{3.2}{1000} =0.19\times \frac{9.7}{1000} +0.81\times \frac{1.6}{1000}

3.6 灵敏度,特异度,筛查试验的预测值

血管造影是诊断中风的标准试验。而这个检查对一些患者有副作用,研究人员尝试使用非侵入性试验作为替代。64名短暂性单眼失明患者接受了2项测试。大约相同数量的造影阳性或造影阴性的病人被选择为样本。结果如下:

我们怎样比较两个试验?描述筛选试验准确性的常用指标是灵敏度,特异度和预测值(阳性和阴性)。如果我们认为造影是金标准,那

灵敏度定义为Pr(test+|ture+)=\frac{32}{35} =0.914

特异度定义为Pr(test-|ture-)=\frac{21}{29} =0.724

我们希望将灵敏度和特异度转换为预测值:

阳性预测值(PV+)定义为Pr(true+|test+),可以证明

PV+=\frac{灵敏度\times 患病率}{灵敏度\times 患病率+(1-特异度)\times (1-患病率)}

此处患病率是真阳性的比例。假设短暂性单眼失明患者中中风的患病率是20%:

PV+=\frac{0.914\times 0.20}{0.914(0.20)+0.276(0.80)}=0.453

阴性预测值定义为Pr(true-|test-)

可以证明:

PV-=\frac{特异度\times (1-患病率)}{特异度\times (1-患病率)+(1-灵敏度)患病率}       =\frac{0.724(0.80)}{0.724(0.80)+0.086(0.20)} =\frac{0.5793}{0.5793+0.0171}=0.971

3.6.1 ROC曲线

有时,将受试者在筛查试验中判定为阳性所依据的标准是武断的。为了全面评估筛查测试的准确性,我们改变用来确定阳性的截断点,并计算不同截断点下的敏感性和特异性。试验的准确性可以通过绘制每个可能截断值下的敏感性与 1 - 特异性的关系图来直观展示。所得曲线称为 ROC 曲线(或受试者工作特征曲线)。曲线下面积被证明是衡量试验总体准确性的良好指标。要解读 ROC 曲线下面积,如果低值对应较差的结果,且我们随机选取一个患病受试者和一个正常受试者,那么 ROC 曲线下面积 = 患病受试者比正常受试者获得分更低的概率。

例如,在一项研究中,4 名参与评估的阅片者使用了两种不同类型的胶片,即 PACS 胶片和平片,根据 X 射线图像来评估异常情况。采用 5 分制评分,分数越低表示异常程度越高。问题在于如何划定异常的截断值。以下是阅片者 1 对 PACS 胶片的评估结果[1]:

要获得受试者工作特征(ROC)曲线,我们需要考虑不同的截断值来判定异常情况。假设我们采用≤1 作为异常的判定标准,≥2 作为正常的判定标准。那么灵敏度将是 38/67 = 0.57,特异度将是 32/33 = 0.97。对于每个可能的截断值,我们都有

得到的ROC曲线如下所示。

ROC曲线下面积= 0.855。因此,一个随机选择的患病者在同一时间内大约86%会低于一个随机选择的正常人。注:如果患病和正常个体的得分相同,那么这种情况在计算患病者得分低于正常人的比例时,被计为半个成功。

3.7 Bayes' 定理

确定阳性预测值和阴性预测值是贝叶斯定理这一更基本法则的一个具体应用。设 A=症状 和B=疾病,那

Pr(B|A)=\frac{Pr(A|B)Pr(B)}{Pr(A|B)Pr(B)+Pr(A|\overline{B})Pr(\overline{B}))}

更一般地,设有k种疾病状态,这些疾病状态每人有且仅有一种,包括正常状态,

Pr(B_i|A)=\frac{Pr(A|B_i)Pr(B_i)}{\sum_{j=1}^kPr(A|B_j)Pr(\overline{B_j})} ,i=1...,k

此处,B_i=ith疾病状态和A=症状。贝叶斯定理用于计算给定一个或多个症状发生的条件下不同疾病状态的概率。为了使用贝叶斯定理,我们需要知道每种疾病状态的流行率(Pr(B_i)),以及在给定疾病状态下,不同症状在患者中出现的频率(Pr(A|B_i))。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容