概率论入门之《统计机器学习导论》阅读笔记（第三章）

第三章离散概率分布的实例

3.1 离散均匀分布

离散均匀分布是指对于 $N$ 个事件{ $1,...,N$ },他们发生的概率都相同的概率分布，记作 $\bigcup$ { $1,...,N$ },因此很好理解，它的概率密度函数为
$f(x)=\frac{1}{N},x=1,...,N$
由级数公式，可得：
$\sum_{x=1}^N x=\frac{N(N+1)}{2}且\sum_{x=1}^N x^2=\frac{N(N+1)(2N+1)}{6}$
可得 $\bigcup$ { $1,...,N$ }的期望和方差为
$E[x]=\frac{N+1}{2}且V[x]=\frac{N^2-1}{12}$
下面给出上式的证明：
$E[x]=\sum_x x f(x)=\sum_x x \frac{1}{N}$
$=\frac{1}{N}\sum_x x$
$=\frac{1}{N}\frac{N(N+1)}{2}$
所以
$E[x]=\frac{N+1}{2}$
下面对方差进行证明
$V[x]=E[x^2]-(E[x])^2$
$=\sum_x x^2f(x)-(\frac{N+1}{2})^2$
$=\frac{1}{N}\sum_x x^2-(\frac{N+1}{2})^2$
$=\frac{1}{N}\frac{N(N+1)(2N+1)}{6}-(\frac{N+1}{2})^2$
所以
$V[x]=\frac{N^2-1}{12}$
下面通过matplotlib为读者展示均匀分布的概率分布图

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
N=10
y=np.array([1/N for i in range(N)])
plt.bar(range(len(y)),y)
plt.title("uniform distribution")
plt.show()

3.2 二项分布

要介绍二项分布，首先要介绍伯努利试验。

伯努利试验是一个具有两种可能结果的独立重复的试验，试验结果为成功或失败。独立且重复地掷一枚相同的硬币是一个典型的伯努利试验。令 $p$ 为试验成功的概率，那 $q(1-p)$ 为试验失败的概率。二项分布是指 $n$ 次伯努利试验中试验成功的次数 $x$ 的概率分布，用 $Bi(n,p)$ 表示。由上述定义可知，二项分布的概率密度函数为：
$f(x)=p^xq^{n-x}C_n^x$
二项分布的期望和方差：
$E[x]=np,V[x]=npq$
下面对上式进行证明：
$\because p+q=1,\therefore 可使用二项式定理$
$\therefore (p+q)^n=\sum_{x=0}^n C_n^x p^x q^{n-x}$
所以 $Bi(n,p)$ 的矩量母函数为：
$M_x(t)=E[e^{tx}]=\sum_x e^{tx}f(x)$
$=\sum_{x=0}^n e^{tx} C_n^x p^x q^{n-x}$
$=\sum_{x=0}^n C_n^x (e^tp)^x q^{n-x}$
将上式代入二项式定理的推导结果：
$\therefore M_x(t)=(pe^t+q)^n$
$\therefore E[x]=\mu_1$
$=M_x'(0)=npe^t(pe^t+q)^{n-1}$
$=np$
$\therefore V[x]=\mu_2-(\mu_1)^2=npq$
下面通过matplotlib为读者展示二项分布的概率分布图

from scipy.special import comb,perm
n=10
p=0.5
def f(x):
    return p**x*(1-p)**(n-x)*comb(n,x)

x=np.arange(0,10)
y=np.array(list(map(f,x)))
plt.bar(x,y)
plt.title("Binomial distribution")
plt.show()

3.3 超几何分布

考虑一个摸球的场景，一个包里有 $N$ 个球，其中 $M$ 个球为 $"A"$ , $N-M$ 个球为 $"B"$ ，从中取出 $n$ 个球。在该情况下，有两种取球的方案，第一种是有放回采样，另一种是无放回采样。

可以想象，在有放回采样的情况下，一个球总是从全部的 $N$ 个球中抽取。采样的过程相当于伯努利试验，因此抽 $n$ 个球，含有 $x$ 个 $A$ 球的概率分布可表示为 $Bi(n,M/N)$

而在无放回的情况下，包里球的数量随试验的进行而不断减少。因此， $A$ 球与 $B$ 球的数量之比取决于历次抽样情况。在这种情况下，抽取 $n$ 个球，含有 $x$ 个 $A$ 球的概率分布称为超几何分布，记作 $HG(N,M,n)$

从 $M$ 个 $A$ 球中取出 $x$ 个 $A$ 球的组合数为 $C_M^x$ ,从 $N-M$ 个B球中取出 $n-x$ 个B球的组合数为 $C_{N-M}^{n-x}$ ,以及从 $N$ 个球中取出 $n$ 个球的组合数 $C_N^n$ ,将上述因子结合，可得 $HG(N,M,n)$ 的概率分布函数为：
$f(x)=\frac{C_M^x C_{N-M}^{n-x}}{C_N^n}$
给出 $HG(N,M,n)$ 的期望和方差：
$E[x]=\frac{nM}{N}且V[x]=\frac{nM(N-M)(N-n)}{N^2(N-1)}$

下面给出上式的证明：
$E[x]=\frac{1}{C_N^n}\sum_{x=0}^nC_{M}^{x}C_{N-M}^{n-x}$
$=\frac{1}{C_N^n}\sum_{x=1}^nC_{M}^{x}C_{N-M}^{n-x}(x=0的一项为零)$
$=\frac{M}{C_N^n}\sum_{x=1}^nC_{M-1}^{x-1}C_{N-M}^{n-x} (\because C_M^x=\frac{M}{x}C_{M-1}^{x-1})$
$=\frac{M}{C_N^n}\sum_{x=0}^{n-1}C_{M-1}^{x}C_{N-M}^{n-x-1} (令x\leftarrow x-1)$
$=\frac{nM}{N}\frac{1}{C_{N-1}^{n-1}}\sum_{x=0}^{n-1}C_{M-1}^xC_{N-M}^{n-x-1} (3.1)$
因为概率密度函数满足 $\sum_{x}f(x)=1$ ,所以有：
$\sum_{x=0}^{n}\frac{C_M^x C_{N-M}^{n-x}}{C_N^n}=1$
可得：
$C_N^n=\sum_{x=0}^nC_M^xC_{N-M}^{n-x}$
$令M\leftarrow M-1,N\leftarrow N-1,n\leftarrow n-1$
可得
$C_{N-1}^{n-1}=\sum_0^{n-1}C_{M-1}^xC_{N-M}^{n-x-1}(3.2)$
将 $3.2$ 代入 $3.1$ 可得 $E[x]=\frac{nM}{N}$
方差 $V[x]$ 可表示为
$V[x]=E[x(x-1)]+E[x]-(E[x])^2(3.3)$
对期望的推导与上面类似，用式 $3.2$ 可得：
$E[x(x-1)]=\frac{n(n-1)M(M-1)}{N(N-1)}$
将其代入 $3.3$ 可得：
$V[x]=\frac{nM(N-M)(N-n)}{N^2(N-1)}$
下面通过matplotlib为读者展示超几何分布的概率分布图

N=100
M=50
n=10
def f(x):
    return comb(M,x)*comb(N-M,n-x)/comb(N,n)
x=np.arange(0,10)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Hypergeometric distribution")
plt.show()

3.4 泊松分布

如果在伯努利试验中，试验成功的概率非常小，小到几乎每次试验都已失败告终。尽管成功的概率 $p$ 极其小，只要试验的次数足够多，伯努利试验总会成功几次的。确实，已知二项分布 $Bi(n,p)$ ,那么当重复伯努利试验的次数 $n=10000000$ ,成功的概率 $p=0.0000003$ 时，期望为 $3$ ，即平均有三次试验成功。

这意味着，只要试验的次数足够多，试验成功次数非零的概率也不会那么小。那么我们更为精确地给出二项分布的概率密度函数
$f(x)=C_n^xp^x(1-p)^{n-x}$
那么 $x=5$ 的概率为
$C_{10000000}^5 (0.0000003)^5(0.9999997)^9999995$
很明显，计算的代价十分昂贵。但若用近似值 $0.9999997 \approx 1$ ,易得值为 $1$ ，但正确的值约为 $0.0498 \ll 1$ ,因此，这是非常粗略的近似。

可以用泊松小数定律来解决这个问题：对于 $p=\lambda/n$ ,
$\lim_{n\rightarrow \infty}C_n^xp^x(1-p)^{n-x}=\frac{e^{-\lambda}\lambda^x}{x!}$

啊这，这个定律非常神妙，这俺就不证明了(因为俺证不出来~)

那么这个概率分布因此被称为泊松分布，记为 $Po(\lambda)$ ,它的概率分布函数为
$f(x)=\frac{e^{-\lambda}\lambda^x}{x!}$
它的期望和方差都是 $\lambda$

下面通过matplotlib为读者展示泊松分布的概率分布图

lamb=10
def f(x):
    return np.e**(-lamb)*lamb**x/perm(x,x)

x=np.arange(0,20)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Poisson distribution")
plt.show()

3.5 负二项分布

让我们考虑试验成功概率为 $p$ 的伯努利试验。直到第 $k$ 次试验成功时，试验失败的次数 $x$ 服从负二项分布，记为 $NB(k,p)$

既然在 $(k+x)$ 次试验中要有 $k$ 次试验成功，那么第 $(k+x)$ 次试验总是成功的。此外，在前 $(k+x-1)$ 次试验中有 $x$ 次试验失败的组合数为 $C_{k+x-1}^x$ 。将这些组合到一起，可得 $NB(k,p)$ 的概率密度函数
$f(x)=C_{k+x-1}^{x}p^k(1-p)^x$
$NB(k,p)$ 的期望和方差为：
$E[x]=\frac{k(1-p)}{p},V[x]=\frac{k(1-p)}{p^2}$
下面通过matplotlib为读者展示负二项分布的概率分布图

k=5
p=0.4
def f(x):
    return comb(k+x-1,x)*p**k*(1-p)**x

x=np.arange(0,30)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Negative binomial distribution")
plt.show()

3.6 几何分布

让我们考虑试验成功概率为 $p$ 的伯努利试验。直到第一次试验成功时，试验失败的次数服从几何分布，即 $k=1$ 时的负二项分布，因此它的概率密度函数为
$f(x)=p(1-p)^x$
将 $f(x)$ 代入 $E[e^{tx}]$ ,可得它的矩量母函数为
$M_x(t)=\frac{p}{1-(1-p)e^t}$
对其求导得
$E[x]=\frac{1-p}{p},V[x]={1-p}{p^2}$
下面通过matplotlib为读者展示几何分布的概率分布图

p=0.3
def f(x):
    return p*(1-p)**x

x=np.arange(0,10)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Geometric distribution")
plt.show()

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,723评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,003评论 3赞 391
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,512评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,825评论 1赞 290
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,874评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,841评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,812评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,582评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,033评论 1赞 308
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,309评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,450评论 1赞 345
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,158评论 5赞 341
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,789评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,409评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,609评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,440评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,357评论 2赞 352