参考:
https://mp.weixin.qq.com/s/uP2hMlEInuZ6yxsEfkD_VQ
https://www.jianshu.com/p/6ee90ba47b4a
指数分布和泊松分布息息相关。
- 指数分布解决的问题是“要等到一个随机事件发生,需要经历多久时间”
- 泊松分布解决的是“在特定时间里发生n个事件的机率”。
- 伽玛分布解决的问题是“要等到n个随机事件都发生,需要经历多久时间”
所以,伽玛分布可以看作是n个指数分布的独立随机变量的加总,即,n个Exponential(λ)random variables--->Gamma(n,λ)
泊松分布的PDF可以用来表示一段时间内,发生概率稳定的小概率独立事件发生的情况;
反过来也可以通过单位时间内发生的次数相关的泊松分布PDF,与已有的概率密度观测值来推断发生概率是否稳定
例如
- 每周卖出的罐头数
- 每年发生的枪击案
举一个泊松分布的例子,类似于罐头库存:
馒头店老板统计了一周中每天卖出的馒头数,如下
销售数量 | |
---|---|
周一 | 3 |
周二 | 7 |
周三 | 4 |
周四 | 6 |
周五 | 5 |
从中可以得到最简单的规律,均值:
从泊松分布一节可以知道每天卖出的馒头数X服从的泊松分布,
记作
所以有
可求得概率密度与累计概率
每天卖出馒头数 | 概率密度 | 累计概率 |
---|---|---|
0 | 0.0067 | 0.0067 |
1 | 0.0337 | 0.0404 |
2 | 0.0842 | 0.1247 |
3 | 0.1404 | 0.265 |
4 | 0.1755 | 0.4405 |
5 | 0.1755 | 0.616 |
6 | 0.1462 | 0.7622 |
7 | 0.1044 | 0.8666 |
8 | 0.0653 | 0.9319 |
9 | 0.0363 | 0.9682 |
10 | 0.0181 | 0.9863 |
11 | 0.0082 | 0.9945 |
概率密度分布如下:
讨论另外一个问题,馒头卖出之间的时间间隔:
可以看出也是随机变量(也就是图中的 ),不过相对馒头卖出个数而言,时间间隔肯定是连续的随机变量。
既然都是卖馒头的问题,那么还是让我们从已知的泊松分布上想想办法。
之前得到的泊松分布让我们知道了每天卖出的馒头数,所以下面按天来分析看看。
设某一天没有卖出馒头,比如说周三吧,这意味着,周二最后卖出的馒头,和周四最早卖出的馒头中间至少间隔了一天:
当然也可能运气不好,周二也没有卖出馒头。那么卖出两个馒头的时间间隔就隔了两天,但无论如何时间间隔都是大于一天的:
而某一天没有卖出馒头(即k=0)的概率可以由泊松分布得出:
根据上面的分析,卖出两个馒头之间的时间间隔要大于一天,
那么必然要包含没有卖出馒头的这天,所以两者的概率是相等的。
如果假设随机变量为:
Y = 卖出两个馒头之间的时间间隔
那么就有
之前求出的泊松分布实在限制太大,只告诉了我们每天卖出的馒头数。
不过没有关系,稍微扩展下可以得到新的函数:
其中为一天,所以表示,有
每天卖出的馒头数 | ||
每天卖出的馒头数 | ||
每天卖出的馒头数 |
两次卖出馒头之间的时间间隔大于的概率,根据之前的分析,等同于时间内没有卖出一个馒头的概率,
而后者的概率可以由泊松过程给出。至此所需的条件都齐备了,那么开始解题吧,假设随机变量:
Y = 卖出两个馒头之间的时间间隔
这个随机变量的概率可以如下计算:
进而有
相当于得到了Y的累积分布函数:
对其求导就可以得到概率密度函数:
即Y = “卖出两个馒头之间的时间间隔”服从,
参数为每天卖出的馒头数量观察值的平均值。
卖出两个馒头之间的时间间隔 | |
---|---|
1 | 0.9933 |
2 | 0.0067 |
这里单看PDF没有意义。
该分布的数学期望
可理解为卖出两个馒头之间的时间间隔的均值是0.2天
推广到其他例子中:
- 卖出每个罐头的时间间隔的平均值为周
- 每个枪击案发生的时间间隔的平均值为年
- TODO