离散型概率分布

补充知识

——wikipedia

伯努利试验：

是只有两种可能结果（成功或失败）的单次随机试验，即对于一个随机变量X而言：

$P(X=1)=p$
$P(X=0)=1-p$

伯努利过程：

是一系列独立同分布的伯努利试验，每个 $X_i$ 的2个结果也被称为“成功”或“失败”。
是一个由有限个或无限个的独立随机变量 $X_1, X_2, X_3 ,...$ 所组成的离散时间随机过程，其中 $X_1, X_2, X_3 ,...$ 满足如下条件：

对每个i, $X_i$ 等于 0 或 1；

对每个i, $X_i=1$ 的概率等于 p；

与伯努利过程相关的随机变量有：

只有一次伯努利试验发生服从伯努利分布。

前 n 个试验的成功次数服从二项分布。

要得到 r 次成功所需要的试验次数服从负二项分布。

要得到 1 次成功所需要的试验次数服从几何分布，这是负二项分布的一个特例。

伯努利分布

背景引入:

在实际中的案例结果往往只有两种结果（正、反）。例如：抛硬币、明天下不下雨、买彩票中奖与不中奖、疾病生存还是死亡、合格与不合格等等。这样的事件便是伯努利试验。

定义：

伯努利分布（Bernoulli distribution）又名两点分布或0-1分布，是一个离散型概率分布，是最简单的离散型概率分布。若伯努利随机试验成功，则伯努利随机变量取1。若伯努利试验失败，则伯努利随机变量取值为0。记其成功概率为p，失败概率为q=1-p。

概率密度函数：

$f(X=x)=p^x(1-p)^{1-x}= \begin{cases} p,x=1\\ q,x=0 \end{cases}$

期望：

$E(X)=\sum_{i=0}^{1}x_i f_X(x)$
$E(X)=0+p$
$E(X)=p$

方差：

$D(X)=\sum_{i=0}^{1}(x_i-E(X))^2f_X(x)$
$D(X)=(0-p)^2(1-p)+(1-p)^2p$
$D(X)=p(1-p)$
$D(X)=pq$

二项分布

背景引入：

对同一个硬币扔10次，出现3次正面朝上的概率。扔硬币的过程便是一个伯努利过程，正面朝上次数的概率就是二项分布。

定义：

Binomial Distribution是n个独立的伯努利试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。实际上，当n = 1时，二项分布就是伯努利分布。二项分布是显著性差异的二项试验的基础。——wikipedia

概率质量函数：

如果随机变量X服从参数n和p为的二项分布，我们记 $X\sim B(n,p)$ 。n次试验中正好得到k次成功的概率由概率质量函数给出：

$f(k,n,p)=P(X=k)=C_n^kp^k(1-p)^{n-k}$
$其中，C_n^k=\frac{n!}{k!(n-k)!}是二项式系数$

分布形状的变化规律：

二项分布是一个概率分布族，随着试验次数n和成功概率p的不同而不同，且它与正态分布关系密切。

[图片上传失败...(image-72b122-1589359103816)]

"成功"概率p越接近0.5(也即"成功"概率与"失败"概率越接近)，二项分布将越对称。且近似于均值为np、方差为npq的正态分布。——图中蓝色与绿色对比

对于任意"成功"概率p，无论其距离0.5有多远，随着试验次数n的增加，二项分布与均值为np、方差为npq的正态分布越来越接近。——图中绿色与红色对比

期望：

期望等于每次单独的伯努利试验的期望和
$E(X)=np$

方差：

方差等于每次单独的伯努利试验的方差和
$D(X)=np(1-p)$

几何分布

在n次伯努利试验中，试验k次才得到第一次成功的概率，也就是说：前k-1次都失败，第k次成功的概率。记为 $X\sim G(p)$ 。

概率质量函数：

$P(X=k)=(1-p)^{k-1}p$
[图片上传失败...(image-93f207-1589359103817)]

期望：

$E(X)=\frac{1}{p}$

方差：

$E(X)=\frac{1-p}{p^2}$

超几何分布

描述了由有限个物体中抽出n个物件，成功抽出指定种类的物件的个数（不放回抽取）。例如在有N个样本，其中K个是不及格，N-K个是及格的，超几何分布描述了在该N个样本中抽出n个，其中k个是不及格的概率。记为 $X\sim H(n,K,N)$ 。

若n=1，超几何分布还原为伯努利分布。

概率质量函数：

[图片上传失败...(image-dbc806-1589359103817)]

$f(k;n,K,N)=\frac{C_K^kC_{N-K}^{n-k}}{C_N^n}$

$C_N^n$ 表示所有在N个样本中抽出n个的方法数目；
$C_K^k$ 表示在K个样本中，抽出k个的方法数目，即组合数，又称为二项式系数。
$C_{N-K}^{n-k}$ 表示剩下来的样本都是及格的，而及格的样本有N-K个。

泊松分布

泊松分布适合于描述单位时间或单位空间内随机事件发生的次数的概率分布。记为 $X\sim P(\lambda)$ 。

如某一服务设施在一定时间内受到的服务请求的次数，

电话交换机接到呼叫的次数、

汽车站台的候客人数、

机器出现的故障数、

自然灾害发生的次数、

DNA序列的变异数、

放射性原子核的衰变数、

激光的光子数分布等等。

概率质量函数：

$P(X=k)=\frac{e^{-\lambda} \lambda^k}{k!}$
泊松分布的参数 $\lambda$ 是单位时间或单位空间内随机事件的平均发生率。

[图片上传失败...(image-41616c-1589359103817)]

横轴是索引k，发生次数。该函数只定义在k为整数的时候。

期望：

$E(X)=\sum_{i=0}^{\infty}iP(X=i)$
$E(X)=\sum_{i=1}^{\infty}i\frac{e^{-\lambda} \lambda^i}{i!}$
$E(X)=\lambda e^{-\lambda}\sum_{i=1}^{\infty}\frac{\lambda^{i-1}}{(i-1)!}$
$E(X)=\lambda e^{-\lambda}\sum_{i=0}^{\infty}\frac{\lambda^{i}}{i!}$
$E(X)=\lambda e^{-\lambda}e^{\lambda}$
$E(X)=\lambda$

方差：

$E(X^2)=\sum_{i=0}^{\infty}i^2P(X=i)$
$E(X^2)=\sum_{i=0}^{\infty}i^2\frac{e^{-\lambda} \lambda^i}{i!}$
$E(X^2)=\lambda e^{-\lambda}\sum_{i=1}^{\infty}\frac{e^{-\lambda} \lambda^{i-1}}{(i-1)!}$
$利用泰勒展开式$
$E(X^2)=\lambda e^{-\lambda}(e^\lambda+\lambda e^\lambda)$
$E(X^2)=\lambda +\lambda^2$
所以可以得到：
$D(X)=E(X^2)-E(X)^2$
$D(X)=\lambda+\lambda^2-\lambda^2$
$D(X)=\lambda$

泊松定理

在二项分布的伯努利试验中，如果试验次数n很大，二项分布的概率p很小，且乘积λ= np比较适中，则事件出现的次数的概率可以用泊松分布来逼近。

事实上，二项分布可以看作泊松分布在离散时间上的对应物。