连续型随机变量与离散型随机变量相比,其概率分布最大的不同是连续型随机变量是在某个区间内连续取值,并且可以认为其取得某个具体数值的概率为 0。正因为如此,在讨论连续型随机变量的概率分布时,我们更关心的是它在某一个区间上的概率密度函数 Probability Density Function,依然用 ƒ(x) 表示,这个函数在某个区间上的积分则对应随机变量的取值落在这个区间的概率。
均匀分布 Uniform probability distribution
如果一个随机变量在一个区间 [a,b] 内取得任意一个值的概率相同,则可以称这个随机变量在此区间上服从均匀分布,其概率密度函数可以定义为:
- 如果 a ≤ x ≤ b,则 ƒ(x) = 1 / (b - a),否则 ƒ(x) = 0
由上式可知,其概率密度函数与取值区间实际上构成了一个面积为 1 的矩形,而高度则是宽度的倒数,在考虑某个区间内取值的概率时,只需要计算这个区间对应的矩形面积即可:
连续型随机变量的期望和方差同离散型随机变量定义相同,但需要通过积分进行计算:
E(x) = ∫xƒ(x)dx = (a + b) / 2
Var(x) = ∫(x - E(x))2ƒ(x)dx = (b - a)2 / 12
正态分布 Normal probability distribution
正态分布是现实世界中最为常见的一种分布形态,其钟形的曲线直观的表明了随机变量的取值围绕均值的分布形态:在均值附近取值的概率最高,偏离均值越远的位置取值的概率越低。考虑到正态分布的多见,可以将这个“正态”理解为正常状态下的随机变量的分布,其他的可以认为是特例。
其概率密度函数为:
- ƒ(x) = e-(x - μ)2/2σ2 / σ(2π )1/2
在一个正态分布中,曲线最高点的横坐标为均值,即均值决定了分布的位置,而标准差则决定了曲线是否扁平或者瘦长:标准差越大,取值离散程度越高,也即相对均值偏离的程度越高,对应的曲线也越扁平,反之亦然。
标准正态分布 Standard normal distribution
将均值为 0,方差为 1 的正态分布称为标准正态分布,为了表明其特殊性,通常用 z 来表示遵循这个分布的随机变量,这个 z 也就是之前定义的标准值 z-score:
zi = (xi - μ) / σ
因此标准正态分布的概率密度函数相应的可以变为:
- ƒ(z) = e-z2/2 / (2π)1/2
由于标准正态分布的概率分布只取决于 z 值,因此可以利用已经计算好的标准正态分布表来查找对应某个 z 值区间内的概率。更进一步地,标准值 z 除了可以在任意形态的分布中描述随机变量的某一个取值在所有可能取值中的相对位置外,其更为重要的意义是对于任意的一个正态分布来说,都可以通过计算 z 值来借助标准正态分布表来辅助计算概率。
例如,对于一个 μ = 10,σ = 2 的正态分布,如果想知道随机变量的取值在 10 ≤ x ≤ 14 这个范围内的概率,其计算方式为:
对于 x = 10,z = (x - μ) / σ = 0,对于 x = 14,z = (x - μ) / σ = 2
查找标准正态分布表,可知 P(z ≤ 2) = 0.9722,而 P(z ≤ 0) = 0.5,所以有 P(0.5 ≤ z ≤ 2) = 0.9722 - 0.5 = 0.4722,也即 10 ≤ x ≤ 14 的概率
以正态分布来近似计算二项分布
在 离散型随机变量及其分布 中提到二项分布是对一个单次试验只有两个取值且取值概率 p 稳定不变的多次独立重复试验,借此考察结果中出现 x 个概率为 p 的项的概率 P(x) = ƒ(x) = px(1-p)n-x n! / [x!(n - x)!]。从这个计算公式可看出,当 n 非常大时,手动的计算阶乘是十分困难的。此时若 np ≥ 5 且 n(1 - p) ≥ 5 时,可以采用正态分布来近似计算二项分布,且在正态分布中 μ = np,σ2 = np(1 - p)。
对于图中这个例子,如果想知道 x = 12 这个离散型随机变量的概率,则可以转化为计算正态分布中 P(11.5 ≤ x ≤ 12.5) 这个连续性随机变量的概率,其中 0.5 为保证正态分布计算的是一个区间值而采用的连续修正系数 continuity correction factor。进一步地,可以再通过将正态分布标准化为标准正态分布来计算这个概率。这一近似对于计算 x 小于等于某个数值时更为简便,可以省略逐个计算再加和的过程,例如如果想计算 x &le 13; 的概率则可以直接计算正态分布中 P(x ≤ 13) 的概率。
指数分布 Exponential probability distribution
指数分布希望了解对于在单位时间内具有一定发生频次 λ 的某个事件来说 t 时间内发生的概率,或者说发生的时间间隔最多为 t 的概率。其概率密度函数为
- ƒ(x) = λe-λx,其中 x ≥ 0
通过积分计算可知,相应的概率为 P(x ≤ t) = 1 - e-λt,其中 t ≥ 0。
由于泊松分布描述的某个具有一定发生频率 λ 的事件 t 时间内发生 x 次的概率,对应同一事件的指数分布则描述的是这个事件两次发生的时间间隔最高为 t 的概率,所以指数分布的概率计算也可以通过泊松分布来计算:即可以将这个概率描述为 1 减去 t 时间内发生次数为 0 的概率 ƒ(0) = (λt)0e-λt / 0! = e-λt。
通过积分计算可知,对于指数函数来说其期望和标准差相等,均为 1 / λ。
免责声明
我写这个笔记是为了系统的复习概率论中的一些概念,阅读的是 Statistics for Business and Economics, 12th Edition 英文原版,这是一本非常经典的参考书,毫无保留的满分推荐。尽管书名暗示了是在商业和经济学中的统计学,但根本的统计学知识是不变量,并且和很多优秀的原版书一样,作者时刻注意用实例来讲解统计学概念,基本上每一个新的概念的定义都建立在日常生活的实例的基础上,在此基础上还保留了精美的排版和精心设计的插图,十分便于理解。
笔记最重要的一个目的就是记录者复习的重要资料,如果能对别人也有所帮助那就是额外的奖赏了,所以为了复习方便我擅自截取了书中的很多插图,这些插图仅限于个人学习使用。其他人请勿直接转载,如转载请删除插图并附带这则免责声明,否则由此而产生的版权问题,请转载者自行承担。