二项分布和泊松分布

一、超几何分布、二项分布和泊松分布的定义

设在 N 个产品中有 M 个不合格品,从这 N 个产品中不放回的等可能的随机抽取 n 个产品,随机变量 X 表示这 n 个产品中包含的不合格品的数量,则 X 的分布就符合超几何分布 H(n, M, N),且分布列为:

 P_X(k) = h(k, n, M, N) = \frac{ \left(\begin{array}{c} M \\ k \end{array}\right) \left(\begin{array}{c} N - M \\n -  k \end{array}\right) }{ \left(\begin{array}{c} N \\ n \end{array}\right) }, 0 \leq k \leq M


设随机事件 A 在一次试验中发生的概率为 p,随机变量 Y 表示在 n 次重复的独立试验中事件 A 发生的次数,则 Y 的分布就符合二项分布 B(n, p),且分布列为:

 P_Y(k) = b(k, n, p) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}, 0 \leq k \leq n


设随机事件 B 在一段时间内发生的平均次数为 \lambda,随机变量 Z 表示在一段时间内事件 B 发生的总次数,则 Z 的分布就符合泊松分布 P( \lambda ),且分布列为:

 P_Z(k) = p(k, \lambda) =  e^{- \lambda} \frac{ \lambda^k }{ k! }, k \geq 0


二、超几何分布、二项分布和泊松分布的关系

对于超几何分布随机变量 X,当固定 n 和 k, N \to \infty, \frac{M}{N} \to p 时,X 的分布极限是二项分布,即:

 \lim_{ N \to \infty } P_X(k) =  \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

证明:

 P_X(k) = \frac{ \left(\begin{array}{c} M \\ k \end{array}\right) \left(\begin{array}{c} N - M \\n -  k \end{array}\right) }{ \left(\begin{array}{c} N \\ n \end{array}\right) }

 = \left(\begin{array}{c} n \\ k \end{array}\right)  \frac{  \Pi_{i=0}^{k-1} (M-i) * \Pi_{j=0}^{n-k-1} (N-M-j)  }{ \Pi_{l=0}^{n-1} (N - l) }

 = \left(\begin{array}{c} n \\ k \end{array}\right)  \frac{  \Pi_{i=0}^{k-1} (p - \frac{i}{N} ) * \Pi_{j=0}^{n-k-1} ( 1 - p - \frac{j}{N} )  }{ \Pi_{l=0}^{n-1} (1 - \frac{1}{N} ) }

 \implies \lim_{ N \to \infty } P_X(k) =  \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

这就证明了超几何分布的极限是二项分布,同时也说明了,当不合格率固定并且产品数量足够大时,不放回抽样的概率分布非常接近放回抽样的概率分布。


对于二项分布随机变量 Y,当 n \to \infty, np \to \lambda时,Y 的分布极限是泊松分布,即:

 \lim_{ n \to \infty } P_Y(k) =  e^{- \lambda} \frac{ \lambda^k }{ k! }

证明:

设随机变量 Y 表示在一段时间内随机事件 B 发生的次数。现在将这段时间分割为 n 个足够多的时间段,并假设在每个时间段内,事件 B 发生的概率为 p,且最多只能发生 1 次,并假设 np \to \lambda,那么在这种假设下,变量 Y 符合二项分布,有:

 P_Y(k) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

 = \frac{ \lambda^k }{ k! } \Pi_{i=0}^{k-1} (1 - \frac{1}{n}) (1 - \frac{ \lambda }{n})^{n-k}p 替换为 \frac{\lambda}{n}

 \implies \lim_{ n \to \infty } P_Y(k) =  e^{- \lambda} \frac{ \lambda^k }{ k! }

这就证明了二项分布的极限是泊松分布,当 n 特别大,p特别小时,可以使用 p(k, np) 来近似计算 b(k, n, p)


三、二项分布可加性和极值

设随机变量 X_1 ~ B(n, p), X_2 ~ B(m, p) 且相互独立,那么随机变量 X_1 + X_2 ~ B(n + m, p)

证明:

从二项分布定义的角度考虑,对于随机事件 AX_1 表示在 n 次独立试验中事件 A 发生的次数,X_2 表示在 m 次独立试验中事件 A 发生的次数,所以随机变量 X_1 + X_2 就表示在 n + m 次试验中事件 A 发生的次数。

下面通过计算对命题进行证明:

 P_{X_1+X_2}(k) = \sum_{i=0}^k P_{X_1}(i) P_{X_2}(k - i)

 = \sum_{i=0}^k \left(\begin{array}{c}n \\ i \end{array}\right) p^i (1 - p)^{n-i} \left(\begin{array}{c}m \\ k-i\end{array}\right) p^{k-i} (1-p)^{m - k + i}

 =  p^k (1-p)^{n + m-k} \sum_{i=0}^k \left(\begin{array}{c}n \\ i \end{array}\right) \left(\begin{array}{c}m \\ k-i\end{array}\right)

 = \left(\begin{array}{c}n+m \\ k \end{array}\right) p^k (1-p)^{n + m-k}

这就证明了 X_1 + X_2 ~ B(n + m, p),结论可以推广到 n 个独立的二项分布随机变量的情况:若相互独立的随机变量 X_i ~ B(n_i, p), i = 1, 2, \dots, n,则 \sum_{i=1}^n X_i ~ B(\sum_{i=1}^n n_i, p)


设随机变量 X ~ B(n, p),则分布列 P_X(k) 在 [0, k^*] 区间内单调非减,在 [k^*, n] 区间内单调非增,其中 k^* = \lfloor (n+1) p \rfloor

证明:

设 k = 1, 2, \dots, n,则分布列的比值为:

 f(k) = \frac{ P_X(k) }{ P_X(k-1) } = \frac{ (n-k+1) p }{ k(1-p) }

可以看出,f(k) 是 k 的单调递减函数,当 f(k) = 1 时可得:

 k = (n+1)p \implies k^* = \lfloor (n+1) p \rfloor

这就证明了二项分布的分布列在 \lfloor (n+1) p \rfloor 处取的最大值,特别的:

当 p \le \frac{1}{n+1} 时,即事件发生的概率特别小时,P_X(k) 在 [0, n] 上都是单调非增的;

当 p \ge \frac{n}{n+1} 时,即事件发生的概率特别大时,P_X(k) 在 [0, n] 上都是单调非减的;


四、二项分布的分布函数

设随机变量 X ~ B(n, p),则分布函数 F_X(p) 是 p 的单调递减函数,且有:

 F_X(p) = f(p) = \frac{ n! }{ k! (n-k-1)! } \int_0^{1-p} t^{n-k-1}(1-t)^k dt, 0 \le k < n

证明:

 F_X(p) = \sum_{i = 0}^k \left(\begin{array}{c} n \\ i \end{array}\right) p^i (1-p)^{n-i}

 \implies \frac{d}{dp} F_X(p) = \sum_{i = 0}^k \left(\begin{array}{c} n \\ i \end {array}\right) (i p^{i - 1} (1-p)^{n-i} - (n-i) p^i (1-p)^{n-i-1})

 \implies \frac{d}{dp} F_X(p) = - (n-k) \left(\begin{array}{c} n \\ k \end{array}\right) p^k (1-p)^{n-k-1}

 \implies \frac{ d }{ dp } F_X(p) =  \frac{ d }{ dp } f(p)

 \implies F_X(p) = f(p) + CC 为常数

 F_X(0) = f(0) = 1 \implies C = 0

这就证明了 F_X(p) = f(p),且 F_X(p) 是 p 的单调递减函数。


五、泊松分布的可加性和极值

设随机变量 X_1 ~ P(\lambda_1), X_2 ~ P(\lambda_2),且相互独立,那么随机变量 X_1 + X_2 ~ P(\lambda_1 + \lambda_2)

证明:

从泊松分布的定义进行考虑,X_1 表示在一段时间内事件 A_1 发生的次数,X_2 表示在一段时间内事件 A_2 发生的次数,那么 X_1  + X_2就表示在一段时间内事件 A_1 + A_2 发生的次数,所以 X_1 + X_2 ~ P(\lambda_1 + \lambda_2)

下面通过计算进行证明:

 P_{X_1+X_2}(k) = \sum_{i=0}^k P_{X_1}(i) P_{X_2}(k - i)

 = \frac{ e^{-(\lambda_1 + \lambda_2)} }{ k! } \sum_{i=0}^k \left(\begin{array}{c} k \\ i \end{array}\right) \lambda_1^i \lambda_2^{k - i}

 = e^{-(\lambda_1 + \lambda_2)} \frac{ (\lambda_1 + \lambda_2)^k }{ k! }

这就证明了 X_1 + X_2 ~ P(\lambda_1 + \lambda_2),结论可以推广到 n 个独立的泊松分布随机变量的情况:若相互独立的随机变量 X_i ~ P(\lambda_i), i = 1,2,\dots,n,则 \sum_{i=1}^n X_i ~ P(\sum_{i=1}^n \lambda_i)


设随机变量 X ~ P(\lambda),则分布列 P_X(k) 在 [0, k^*] 区间内单调非减,在 [k^*, + \infty] 区间内单调非增,其中 k^* = \lfloor \lambda \rfloor

证明:

设 k = 1, 2, \dots,则分布列的比值为:

 f(k) = \frac{ P_X(k) }{ P_X(k-1) } = \frac{ \lambda }{ k }

可以看出,f(k) 是 k 的单调递减函数,当 f(k) = 1 时可得:

 k = \lambda \implies k^* = \lfloor \lambda \rfloor

这就证明了泊松分布的分布列在 k^* 处取的最大值,特别的:

当 \lambda \le 1 时,即单位时间内事件发生的平均次数特别小时,P_X(k) 在 [0, +\infty] 上都是单调非增的;

当 \lambda > 1 时,P_X(k) 先增大后减小,并在 k^* 处达到最大值;


六、泊松分布的分布函数

设随机变量 X ~ P(\lambda),则分布函数 F_X(\lambda)\lambda 的单调递减函数,且有:

 F_X( \lambda ) = f( \lambda ) = \frac{1}{k!} \int_\lambda^{ \infty } t^k e^{-t} dt, k \ge 0

证明:

 F_X(\lambda) = \sum_{i=0}^k e^{-\lambda} \frac{ \lambda^i }{ i! }

 \implies \frac{d}{d\lambda} F_X(\lambda) = \sum_{i=0}^k e^{-\lambda} ( \frac{ i \lambda^{i-1} }{ i! } - \frac{\lambda^i}{i!} )

 \implies \frac{d}{d\lambda} F_X(\lambda) = - e^{-\lambda} \frac{\lambda^k}{k!} = \frac{d}{d\lambda} f(\lambda)

 \implies F_X(\lambda) = f(\lambda) + CC 为常数

 F_X(0) = f(0) = 1 \implies C=0

这就证明了 F_X(\lambda) = f(\lambda),且 F_X(\lambda) 是 \lambda 的单调递减函数。

另外,通过 f(\lambda) 做变量替换 t = \frac{x}{2} ,则有:

 F_X( \lambda, k) = f( \lambda, k) = \Gamma(k + 1)^{-1} 2^{-(k+1)} \int_{ 2 \lambda }^{ \infty } x^k e^{- \frac{x}{2} } dx

 = 1 - K_{2(k+1)}(2 \lambda)

其中,K_{2(k+1)} 为自由度 2(k+1) 的卡方分布函数,即:

泊松分布函数和卡方分布函数可以进行相互计算


七、泊松分布和指数分布的关系

设随机变量 Y ~ e(\lambda)Y 表示一批元件的寿命分布。现在做一个试验,从零开始计时,首先取一个元件进行测试,当元件失效时就取另一个元件替换后继续测试。设随机变量 X 表示到时间 T 为止,失效的元件个数(或进行替换的次数),证明 X ~ P(\lambda T)

证明:设 \chi_n^2 表示自由度为 n 的卡方分布密度函数,并且我们知道 2 \lambda \sum_{i=1}^n Y_i 符合自由度为 2n 的卡方分布。下面对 X 的取值分别进行证明。

1. X = 0 的概率为:P_X(0) = P(Y_1 > T) = e^{- \lambda T}

2. X = k, k > 1  的条件概率为:P_X(k | \sum_{i=1}^k Y_i = t) = e^{ - \lambda (T - t) }

 \implies P_X(k) = \int_0^T f_{ \sum_{i=1}^k Yi } (t) e^{- \lambda (T - t) } dt

 \implies P_X(k) = \int_0^T \chi_{2k}^2(2 \lambda t) 2 \lambda  e^{- \lambda (T - t) } dt

 \implies P_X(k) = \Gamma(k)^{-1} \lambda^k e^{ - \lambda T } \int_0^T t^{k-1} dt

 \implies P_X(k) = e^{ - \lambda T } \frac{ ( \lambda T )^k }{ k! }

综合1和2可知,X ~ P( \lambda T )。另外,通过数学归纳法也可以对此进行证明。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容