转自泊松分布、指数分布与伽马分布:https://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88
http://www.ruanyifeng.com/blog/2015/06/poisson-distribution.html
http://www.ruanyifeng.com/blog/201
一、泊松分布
泊松分布:随机事件在单位时间内发生某次的概率。
通俗地说:事件在单位时间内发生0次的概率、发生1次的概率 ... 发生∞次的概率。
形象地说:下面每条线各表示一种泊松分布。平均意义上,黄线的单位时间内发生1次,紫线的单位时间内发生4次,蓝线的单位时间内发生10次。λ表示平均发生率,所以在k=λ时取到极值。
暗含的假设:事件之间的平均时间是已知的,事件的确切时间是随机的。
有空的话,就看个例子吧:
已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少?
泊松分布公式如下:
各个参数的含义:
- P:每周销售k个罐头的概率。
- X:水果罐头的销售变量。
- k:X的取值(0,1,2,3...)。
- λ:每周水果罐头的平均销售量,是一个常数,本题为2。
根据公式,计算得到每周销量的分布:
从上表可见,如果存货4个罐头,95%的概率不会缺货;如果存货5个罐头,98%的概率不会缺货。
一般来说,泊松分布满足三个特征:(实际上,许多以泊松过程为模型的现象并不能完全满足这些条件)
- (1) 小概率事件
- (2) 发生是独立的,不会互相影响
- (3) 发生概率是稳定的
二、泊松分布总结
日常生活中,大量事件是有固定频率的:
- 某医院平均每小时出生3个婴儿
- 某公司平均每10分钟接到1个电话
- 某超市平均每天销售4包xx牌奶粉
- 某网站平均每分钟有2次访问
它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?
有可能一下子出生6个,也有可能1个都不出生。这是我们没法知道的。
泊松分布就是描述某段时间内,事件发生某次的概率。
上面就是泊松分布的公式。等号的左边,P 表示概率,N表示某种函数关系,t 表示几个单位时间,n 表示数量,1小时内出生3个婴儿的概率,就表示为 P(N(1) = 3) 。等号的右边,λ 表示事件的频率。
接下来2个小时(即上面的t=2),一个婴儿都不出生的概率是0.25%,基本不可能发生。
接下来一个小时,至少出生两个婴儿的概率是80%。
泊松分布的图形大概是下面的样子。
可以看到,在频率附近,事件的发生概率最高,然后向两边对称下降,即变得越大和越小都不太可能。每小时出生3个婴儿,这是最可能的结果,出生得越多或越少,就越不可能。
三、泊松分布与指数分布
泊松过程的时间增量符合指数分布,此处的指数分布是事件的间隔时间的概率。下面这些一般符合指数分布:
- 婴儿出生的时间间隔;
- 来电的时间间隔;
- 奶粉销售的时间间隔;
- 网站访问的时间间隔;
指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔 t个单位时间 ,就等同于 t 之内没有任何婴儿出生。
反过来,事件在时间 t 之内发生的概率,就是1减去上面的值。
接下来15分钟(0.25个单位时间),会有婴儿出生的概率是52.76%。
接下来的15分钟到30分钟,会有婴儿出生的概率是24.92%。
指数分布的图形大概是下面的样子。
λ是平均单位时间发生次数,如果λ越大,两次间隔时间必然越短。
当λ=1时(图3),间隔时间大于1个单位时间的可能性,就比λ=3时(图4),间隔时间大于1个单位时间的可能性大。
四、指数分布与伽马分布
指数分布解决的问题是“要等到一个随机事件发生,需要经历多久时间”
伽玛分布解决的问题是“要等到n个随机事件都发生,需要经历多久时间”
泊松分布解决的是“在特定时间里发生n个事件的概率”。