概率论入门之《统计机器学习导论》阅读笔记(第三章)

第三章离散概率分布的实例

3.1 离散均匀分布

离散均匀分布是指对于N个事件{1,...,N},他们发生的概率都相同的概率分布,记作\bigcup{1,...,N},因此很好理解,它的概率密度函数为
f(x)=\frac{1}{N},x=1,...,N
由级数公式,可得:
\sum_{x=1}^N x=\frac{N(N+1)}{2}且\sum_{x=1}^N x^2=\frac{N(N+1)(2N+1)}{6}
可得\bigcup{1,...,N}的期望和方差为
E[x]=\frac{N+1}{2}且V[x]=\frac{N^2-1}{12}
下面给出上式的证明
E[x]=\sum_x x f(x)=\sum_x x \frac{1}{N}
=\frac{1}{N}\sum_x x
=\frac{1}{N}\frac{N(N+1)}{2}
所以
E[x]=\frac{N+1}{2}
下面对方差进行证明
V[x]=E[x^2]-(E[x])^2
=\sum_x x^2f(x)-(\frac{N+1}{2})^2
=\frac{1}{N}\sum_x x^2-(\frac{N+1}{2})^2
=\frac{1}{N}\frac{N(N+1)(2N+1)}{6}-(\frac{N+1}{2})^2
所以
V[x]=\frac{N^2-1}{12}
下面通过matplotlib为读者展示均匀分布的概率分布图

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
N=10
y=np.array([1/N for i in range(N)])
plt.bar(range(len(y)),y)
plt.title("uniform distribution")
plt.show()

3.2 二项分布

要介绍二项分布,首先要介绍伯努利试验。

伯努利试验是一个具有两种可能结果的独立重复的试验,试验结果为成功或失败。独立且重复地掷一枚相同的硬币是一个典型的伯努利试验。令p为试验成功的概率,那q(1-p)为试验失败的概率。二项分布是指n次伯努利试验中试验成功的次数x的概率分布,用Bi(n,p)表示。由上述定义可知,二项分布的概率密度函数为:
f(x)=p^xq^{n-x}C_n^x
二项分布的期望和方差:
E[x]=np,V[x]=npq
下面对上式进行证明
\because p+q=1,\therefore 可使用二项式定理
\therefore (p+q)^n=\sum_{x=0}^n C_n^x p^x q^{n-x}
所以Bi(n,p)的矩量母函数为:
M_x(t)=E[e^{tx}]=\sum_x e^{tx}f(x)
=\sum_{x=0}^n e^{tx} C_n^x p^x q^{n-x}
=\sum_{x=0}^n C_n^x (e^tp)^x q^{n-x}
将上式代入二项式定理的推导结果:
\therefore M_x(t)=(pe^t+q)^n
\therefore E[x]=\mu_1
=M_x'(0)=npe^t(pe^t+q)^{n-1}
=np
\therefore V[x]=\mu_2-(\mu_1)^2=npq
下面通过matplotlib为读者展示二项分布的概率分布图

from scipy.special import comb,perm
n=10
p=0.5
def f(x):
    return p**x*(1-p)**(n-x)*comb(n,x)

x=np.arange(0,10)
y=np.array(list(map(f,x)))
plt.bar(x,y)
plt.title("Binomial distribution")
plt.show()

3.3 超几何分布

考虑一个摸球的场景,一个包里有N个球,其中M个球为"A",N-M个球为"B",从中取出n个球。在该情况下,有两种取球的方案,第一种是有放回采样,另一种是无放回采样。

可以想象,在有放回采样的情况下,一个球总是从全部的N个球中抽取。采样的过程相当于伯努利试验,因此抽n个球,含有xA球的概率分布可表示为Bi(n,M/N)

而在无放回的情况下,包里球的数量随试验的进行而不断减少。因此,A球与B球的数量之比取决于历次抽样情况。在这种情况下,抽取n个球,含有xA球的概率分布称为超几何分布,记作HG(N,M,n)

MA球中取出xA球的组合数为C_M^x,从N-M个B球中取出n-x个B球的组合数为C_{N-M}^{n-x},以及从N个球中取出n个球的组合数C_N^n,将上述因子结合,可得HG(N,M,n)的概率分布函数为:
f(x)=\frac{C_M^x C_{N-M}^{n-x}}{C_N^n}
给出HG(N,M,n)的期望和方差:
E[x]=\frac{nM}{N}且V[x]=\frac{nM(N-M)(N-n)}{N^2(N-1)}

下面给出上式的证明
E[x]=\frac{1}{C_N^n}\sum_{x=0}^nC_{M}^{x}C_{N-M}^{n-x}
=\frac{1}{C_N^n}\sum_{x=1}^nC_{M}^{x}C_{N-M}^{n-x}(x=0的一项为零)
=\frac{M}{C_N^n}\sum_{x=1}^nC_{M-1}^{x-1}C_{N-M}^{n-x} (\because C_M^x=\frac{M}{x}C_{M-1}^{x-1})
=\frac{M}{C_N^n}\sum_{x=0}^{n-1}C_{M-1}^{x}C_{N-M}^{n-x-1} (令x\leftarrow x-1)
=\frac{nM}{N}\frac{1}{C_{N-1}^{n-1}}\sum_{x=0}^{n-1}C_{M-1}^xC_{N-M}^{n-x-1} (3.1)
因为概率密度函数满足\sum_{x}f(x)=1,所以有:
\sum_{x=0}^{n}\frac{C_M^x C_{N-M}^{n-x}}{C_N^n}=1
可得:
C_N^n=\sum_{x=0}^nC_M^xC_{N-M}^{n-x}
令M\leftarrow M-1,N\leftarrow N-1,n\leftarrow n-1
可得
C_{N-1}^{n-1}=\sum_0^{n-1}C_{M-1}^xC_{N-M}^{n-x-1}(3.2)
3.2代入3.1可得E[x]=\frac{nM}{N}
方差V[x]可表示为
V[x]=E[x(x-1)]+E[x]-(E[x])^2(3.3)
对期望的推导与上面类似,用式3.2可得:
E[x(x-1)]=\frac{n(n-1)M(M-1)}{N(N-1)}
将其代入3.3可得:
V[x]=\frac{nM(N-M)(N-n)}{N^2(N-1)}
下面通过matplotlib为读者展示超几何分布的概率分布图

N=100
M=50
n=10
def f(x):
    return comb(M,x)*comb(N-M,n-x)/comb(N,n)
x=np.arange(0,10)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Hypergeometric distribution")
plt.show()

3.4 泊松分布

如果在伯努利试验中,试验成功的概率非常小,小到几乎每次试验都已失败告终。尽管成功的概率p极其小,只要试验的次数足够多,伯努利试验总会成功几次的。确实,已知二项分布Bi(n,p),那么当重复伯努利试验的次数n=10000000,成功的概率p=0.0000003时,期望为3,即平均有三次试验成功。

这意味着,只要试验的次数足够多,试验成功次数非零的概率也不会那么小。那么我们更为精确地给出二项分布的概率密度函数
f(x)=C_n^xp^x(1-p)^{n-x}
那么x=5的概率为
C_{10000000}^5 (0.0000003)^5(0.9999997)^9999995
很明显,计算的代价十分昂贵。但若用近似值0.9999997 \approx 1,易得值为1,但正确的值约为0.0498 \ll 1,因此,这是非常粗略的近似。

可以用泊松小数定律来解决这个问题:对于p=\lambda/n,
\lim_{n\rightarrow \infty}C_n^xp^x(1-p)^{n-x}=\frac{e^{-\lambda}\lambda^x}{x!}

啊这,这个定律非常神妙,这俺就不证明了(因为俺证不出来~)

那么这个概率分布因此被称为泊松分布,记为Po(\lambda),它的概率分布函数为
f(x)=\frac{e^{-\lambda}\lambda^x}{x!}
它的期望和方差都是\lambda

下面通过matplotlib为读者展示泊松分布的概率分布图

lamb=10
def f(x):
    return np.e**(-lamb)*lamb**x/perm(x,x)

x=np.arange(0,20)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Poisson distribution")
plt.show()

3.5 负二项分布

让我们考虑试验成功概率为p的伯努利试验。直到第k次试验成功时,试验失败的次数x服从负二项分布,记为NB(k,p)

既然在(k+x)次试验中要有k次试验成功,那么第(k+x)次试验总是成功的。此外,在前(k+x-1)次试验中有x次试验失败的组合数为C_{k+x-1}^x。将这些组合到一起,可得NB(k,p)的概率密度函数
f(x)=C_{k+x-1}^{x}p^k(1-p)^x
NB(k,p)的期望和方差为:
E[x]=\frac{k(1-p)}{p},V[x]=\frac{k(1-p)}{p^2}
下面通过matplotlib为读者展示负二项分布的概率分布图

k=5
p=0.4
def f(x):
    return comb(k+x-1,x)*p**k*(1-p)**x

x=np.arange(0,30)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Negative binomial distribution")
plt.show()

3.6 几何分布

让我们考虑试验成功概率为p的伯努利试验。直到第一次试验成功时,试验失败的次数服从几何分布,即k=1时的负二项分布,因此它的概率密度函数为
f(x)=p(1-p)^x
f(x)代入E[e^{tx}],可得它的矩量母函数为
M_x(t)=\frac{p}{1-(1-p)e^t}
对其求导得
E[x]=\frac{1-p}{p},V[x]={1-p}{p^2}
下面通过matplotlib为读者展示几何分布的概率分布图

p=0.3
def f(x):
    return p*(1-p)**x

x=np.arange(0,10)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Geometric distribution")
plt.show()
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容