概率论入门之《统计机器学习导论》阅读笔记(第三章)

第三章离散概率分布的实例

3.1 离散均匀分布

离散均匀分布是指对于N个事件{1,...,N},他们发生的概率都相同的概率分布,记作\bigcup{1,...,N},因此很好理解,它的概率密度函数为
f(x)=\frac{1}{N},x=1,...,N
由级数公式,可得:
\sum_{x=1}^N x=\frac{N(N+1)}{2}且\sum_{x=1}^N x^2=\frac{N(N+1)(2N+1)}{6}
可得\bigcup{1,...,N}的期望和方差为
E[x]=\frac{N+1}{2}且V[x]=\frac{N^2-1}{12}
下面给出上式的证明
E[x]=\sum_x x f(x)=\sum_x x \frac{1}{N}
=\frac{1}{N}\sum_x x
=\frac{1}{N}\frac{N(N+1)}{2}
所以
E[x]=\frac{N+1}{2}
下面对方差进行证明
V[x]=E[x^2]-(E[x])^2
=\sum_x x^2f(x)-(\frac{N+1}{2})^2
=\frac{1}{N}\sum_x x^2-(\frac{N+1}{2})^2
=\frac{1}{N}\frac{N(N+1)(2N+1)}{6}-(\frac{N+1}{2})^2
所以
V[x]=\frac{N^2-1}{12}
下面通过matplotlib为读者展示均匀分布的概率分布图

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
N=10
y=np.array([1/N for i in range(N)])
plt.bar(range(len(y)),y)
plt.title("uniform distribution")
plt.show()

3.2 二项分布

要介绍二项分布,首先要介绍伯努利试验。

伯努利试验是一个具有两种可能结果的独立重复的试验,试验结果为成功或失败。独立且重复地掷一枚相同的硬币是一个典型的伯努利试验。令p为试验成功的概率,那q(1-p)为试验失败的概率。二项分布是指n次伯努利试验中试验成功的次数x的概率分布,用Bi(n,p)表示。由上述定义可知,二项分布的概率密度函数为:
f(x)=p^xq^{n-x}C_n^x
二项分布的期望和方差:
E[x]=np,V[x]=npq
下面对上式进行证明
\because p+q=1,\therefore 可使用二项式定理
\therefore (p+q)^n=\sum_{x=0}^n C_n^x p^x q^{n-x}
所以Bi(n,p)的矩量母函数为:
M_x(t)=E[e^{tx}]=\sum_x e^{tx}f(x)
=\sum_{x=0}^n e^{tx} C_n^x p^x q^{n-x}
=\sum_{x=0}^n C_n^x (e^tp)^x q^{n-x}
将上式代入二项式定理的推导结果:
\therefore M_x(t)=(pe^t+q)^n
\therefore E[x]=\mu_1
=M_x'(0)=npe^t(pe^t+q)^{n-1}
=np
\therefore V[x]=\mu_2-(\mu_1)^2=npq
下面通过matplotlib为读者展示二项分布的概率分布图

from scipy.special import comb,perm
n=10
p=0.5
def f(x):
    return p**x*(1-p)**(n-x)*comb(n,x)

x=np.arange(0,10)
y=np.array(list(map(f,x)))
plt.bar(x,y)
plt.title("Binomial distribution")
plt.show()

3.3 超几何分布

考虑一个摸球的场景,一个包里有N个球,其中M个球为"A",N-M个球为"B",从中取出n个球。在该情况下,有两种取球的方案,第一种是有放回采样,另一种是无放回采样。

可以想象,在有放回采样的情况下,一个球总是从全部的N个球中抽取。采样的过程相当于伯努利试验,因此抽n个球,含有xA球的概率分布可表示为Bi(n,M/N)

而在无放回的情况下,包里球的数量随试验的进行而不断减少。因此,A球与B球的数量之比取决于历次抽样情况。在这种情况下,抽取n个球,含有xA球的概率分布称为超几何分布,记作HG(N,M,n)

MA球中取出xA球的组合数为C_M^x,从N-M个B球中取出n-x个B球的组合数为C_{N-M}^{n-x},以及从N个球中取出n个球的组合数C_N^n,将上述因子结合,可得HG(N,M,n)的概率分布函数为:
f(x)=\frac{C_M^x C_{N-M}^{n-x}}{C_N^n}
给出HG(N,M,n)的期望和方差:
E[x]=\frac{nM}{N}且V[x]=\frac{nM(N-M)(N-n)}{N^2(N-1)}

下面给出上式的证明
E[x]=\frac{1}{C_N^n}\sum_{x=0}^nC_{M}^{x}C_{N-M}^{n-x}
=\frac{1}{C_N^n}\sum_{x=1}^nC_{M}^{x}C_{N-M}^{n-x}(x=0的一项为零)
=\frac{M}{C_N^n}\sum_{x=1}^nC_{M-1}^{x-1}C_{N-M}^{n-x} (\because C_M^x=\frac{M}{x}C_{M-1}^{x-1})
=\frac{M}{C_N^n}\sum_{x=0}^{n-1}C_{M-1}^{x}C_{N-M}^{n-x-1} (令x\leftarrow x-1)
=\frac{nM}{N}\frac{1}{C_{N-1}^{n-1}}\sum_{x=0}^{n-1}C_{M-1}^xC_{N-M}^{n-x-1} (3.1)
因为概率密度函数满足\sum_{x}f(x)=1,所以有:
\sum_{x=0}^{n}\frac{C_M^x C_{N-M}^{n-x}}{C_N^n}=1
可得:
C_N^n=\sum_{x=0}^nC_M^xC_{N-M}^{n-x}
令M\leftarrow M-1,N\leftarrow N-1,n\leftarrow n-1
可得
C_{N-1}^{n-1}=\sum_0^{n-1}C_{M-1}^xC_{N-M}^{n-x-1}(3.2)
3.2代入3.1可得E[x]=\frac{nM}{N}
方差V[x]可表示为
V[x]=E[x(x-1)]+E[x]-(E[x])^2(3.3)
对期望的推导与上面类似,用式3.2可得:
E[x(x-1)]=\frac{n(n-1)M(M-1)}{N(N-1)}
将其代入3.3可得:
V[x]=\frac{nM(N-M)(N-n)}{N^2(N-1)}
下面通过matplotlib为读者展示超几何分布的概率分布图

N=100
M=50
n=10
def f(x):
    return comb(M,x)*comb(N-M,n-x)/comb(N,n)
x=np.arange(0,10)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Hypergeometric distribution")
plt.show()

3.4 泊松分布

如果在伯努利试验中,试验成功的概率非常小,小到几乎每次试验都已失败告终。尽管成功的概率p极其小,只要试验的次数足够多,伯努利试验总会成功几次的。确实,已知二项分布Bi(n,p),那么当重复伯努利试验的次数n=10000000,成功的概率p=0.0000003时,期望为3,即平均有三次试验成功。

这意味着,只要试验的次数足够多,试验成功次数非零的概率也不会那么小。那么我们更为精确地给出二项分布的概率密度函数
f(x)=C_n^xp^x(1-p)^{n-x}
那么x=5的概率为
C_{10000000}^5 (0.0000003)^5(0.9999997)^9999995
很明显,计算的代价十分昂贵。但若用近似值0.9999997 \approx 1,易得值为1,但正确的值约为0.0498 \ll 1,因此,这是非常粗略的近似。

可以用泊松小数定律来解决这个问题:对于p=\lambda/n,
\lim_{n\rightarrow \infty}C_n^xp^x(1-p)^{n-x}=\frac{e^{-\lambda}\lambda^x}{x!}

啊这,这个定律非常神妙,这俺就不证明了(因为俺证不出来~)

那么这个概率分布因此被称为泊松分布,记为Po(\lambda),它的概率分布函数为
f(x)=\frac{e^{-\lambda}\lambda^x}{x!}
它的期望和方差都是\lambda

下面通过matplotlib为读者展示泊松分布的概率分布图

lamb=10
def f(x):
    return np.e**(-lamb)*lamb**x/perm(x,x)

x=np.arange(0,20)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Poisson distribution")
plt.show()

3.5 负二项分布

让我们考虑试验成功概率为p的伯努利试验。直到第k次试验成功时,试验失败的次数x服从负二项分布,记为NB(k,p)

既然在(k+x)次试验中要有k次试验成功,那么第(k+x)次试验总是成功的。此外,在前(k+x-1)次试验中有x次试验失败的组合数为C_{k+x-1}^x。将这些组合到一起,可得NB(k,p)的概率密度函数
f(x)=C_{k+x-1}^{x}p^k(1-p)^x
NB(k,p)的期望和方差为:
E[x]=\frac{k(1-p)}{p},V[x]=\frac{k(1-p)}{p^2}
下面通过matplotlib为读者展示负二项分布的概率分布图

k=5
p=0.4
def f(x):
    return comb(k+x-1,x)*p**k*(1-p)**x

x=np.arange(0,30)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Negative binomial distribution")
plt.show()

3.6 几何分布

让我们考虑试验成功概率为p的伯努利试验。直到第一次试验成功时,试验失败的次数服从几何分布,即k=1时的负二项分布,因此它的概率密度函数为
f(x)=p(1-p)^x
f(x)代入E[e^{tx}],可得它的矩量母函数为
M_x(t)=\frac{p}{1-(1-p)e^t}
对其求导得
E[x]=\frac{1-p}{p},V[x]={1-p}{p^2}
下面通过matplotlib为读者展示几何分布的概率分布图

p=0.3
def f(x):
    return p*(1-p)**x

x=np.arange(0,10)
y=list(map(f,x))
plt.bar(x,y)
plt.title("Geometric distribution")
plt.show()
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容