R统计学(05): 泊松分布

前面我们介绍了多种离散型概率分布,大家可以点击下方链接来回顾:

西莫恩·德尼·泊松

今天要给大家介绍另一个常见的离散型概率分布:泊松分布(Poisson distribution)。它由法国数学家西莫恩·德尼·泊松 (1781–1840) 于1837年发表,在实际生活中有着非常广泛的应用。

1. 定义和现实应用

泊松概率分布描述的是在某段时间或某个空间内发生随机事件次数的概率,简而言之就是:根据过去某个随机事件在某段时间或某个空间内发生的平均次数,预测该随机事件在未来同样长的时间或同样大的空间内发生k次的概率。其概率质量函数为:

P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}

其中:

  • λ是过去某段时间或某个空间内随机事件发生的平均次数
  • e = 2.71828...,是自然常数
  • k的取值为 0, 1, 2, 3, 4, ...
  • k! = k x (k-1) x (k-2) x ... x 2 x 1,是k的阶乘

由于泊松分布适用于描述某段时间(或某个空间)内随机事件发生的次数,因此它常用于预测某些事件的发生。例如:某家医院在一定时间内到达的人数;超市收银台在某段时间内的结账人数;某段时间内发生自然灾害的次数;某段时间内DNA序列的变异数;放射性原子核在一段时间内的衰变数等等。

2. 泊松分布的推导

泊松分布的概率质量函数可以由二项分布的概率质量函数推导而来,下面是推导过程。

二项分布的概率质量函数为:

P(X=k)=C_n^kp^k(1-p)^{n-k}

其中n代表伯努利试验的次数;p代表试验成功的概率,则1-p为试验失败的概率;k代表n次试验中成功的次数,则失败次数为n-k。

假定在过去的历史中,某个随机事件在固定长度时间段发生的平均次数为λ,那么就可以将固定长度的时间分成n等份;在每等份的时间内,随机事件发生的概率可以表示为λ/n。若n趋于无穷大,也就是这段时间被分成无数的小段,那么λ/n的值将趋近于0,也就是在每个等份的时间内,该随机事件发生两次或两次以上是不可能的。根据以上假设条件,在固定长度时间内,随机事件发生k次的概率服从二项概率分布,可以表示为:

由上可知,在二项分布的伯努利试验中,如果试验次数n很大,成功概率p很小,且乘积λ= np比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。

3. 泊松分布的性质

从泊松分布的概率质量函数可以看出,λ是泊松分布所依赖的唯一参数,随着历史平均次数λ的不同,泊松分布的概率分布形态也将随之改变。如下图,随着λ的增大,泊松分布的形态也由右偏分布 (尾巴在右边) 逐渐变为对称分布。

在实际情况中,当λ很大时,可以用正态分布近似地处理泊松分布问题

泊松分布的期望值与方差相等,同为参数λ,即:E(X)=Var(X)=λ (具体推导过程可参考泊松分布的中文维基百科词条)。对于这个性质,也可通过二项分布的期望值和方差进行推导,我们知道二项分布的期望值和方差分别为np和npq,则泊松分布的期望值和方差为:

E(X)=np=n\frac{\lambda}{n}=\lambda

Var(X)=npq=nq(1-p)=n\frac{\lambda}{n}{(1-\frac{\lambda}{n})}=\lambda

上式推导利用了λ/n的值趋近于0的这个性质

4. R中的相关函数

R中也有四个函数可用于泊松分布,分别是:

  • dpois(x, lambda):返回发生x次随机事件的概率

  • ppois(q, lambda):返回累积概率

  • qpois(p, lambda):返回相应分位点x,详情见下面的例子

  • rpois(n, lambda):返回每组发生随机事件的次数

这四个函数都有lambda,对应于随机事件发生的平均次数λ。下面通过一个例子来了解如何使用它们:

根据历史数据,某条河(比如:长江)100年平均要发生一次洪水,那么接下来的100年发生0次,1次和2次洪水的概率分别是多少呢?

分析:由于是过去很长时间的数据总结,因此可以认为这条河发生洪水的概率是稳定的,因此这条河发生洪水次数的概率服从泊松分布,且λ=1。

结果

下表给出了在未来100年内,这条河发生0到6次洪水的概率:

从表格结果可以看出,未来100年内这条河发生洪水的概率高达63.2%
(= 1-P(k=0)),因此对于这条河要不断加强和完善防洪工程措施。

下面我们利用R中的函数来计算相关量:

第一个问题:未来100年内,发生0次,1次和2次洪水的概率分别是多少?此时要用到dpois(x, lambda)函数,其中x参数指定发生的次数,函数返回相应概率,结果为:

> dpois(0:2, 1)
[1] 0.3678794 0.3678794 0.1839397

第二个问题:至多发生1次洪水的概率是多少?此时要用到ppois(q, lambda)函数,其中q参数指定至多发生的次数(这里为1),函数返回相应累积概率,结果为:

> ppois(1, 1)
[1] 0.7357589

第三个问题:90%概率下这条河至多能发生几次洪水?此时要用到qpois(p, lambda)函数,其中p参数指定概率(这里是0.9),函数返回相应分位点x(即F(x)≥0.9对应的最小x值),结果为:

> qpois(0.9, 1)
[1] 2

结果表明,90%概率下至多发生2次洪水

最后一个问题:重复10000组模拟,每组发生洪水的次数是多少?这时就要用到rpois(n, lambda)函数,其中n参数指定模拟的组数(这里为10000),函数返回每组发生的次数,结果为:

> set.seed(123)
> ns <- rpois(10000, 1)
> table(ns)
ns
   0    1    2    3    4    5    6    7 
3652 3757 1831  580  145   26    8    1 

> mean(ns)   ##发生次数的平均值
[1] 0.9924
> var(ns)    ##发生次数的方差
[1] 0.9760398

模拟1万组,3652组没有发生洪水,与理论上36.78%不发生洪水很接近。此外均值和方差也与理论值 (λ=1)很接近。

泊松分布的介绍就到此结束,希望对大家的学习有所帮助,也希望大家多多支持本公众号。


感谢您的阅读!想了解更多有关技巧,请关注我的微信公众号“R语言和Python学堂”,我将定期更新相关文章。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容

  • 文章转自:泊松分布和指数分布:10分钟教程 - 阮一峰的网络日志 http://www.ruanyifeng.co...
    horu阅读 7,969评论 0 11
  • 读书笔记(R语言) 作者:曾健明公众号: 生信技能树整理原因:在公众号这篇文章中看到如下一段话,自己最近又在练习用...
    6102阅读 1,686评论 0 5
  • 来源 对今天挑战有用的条目都高亮如下: 泊松随机变量 Poisson Random Variables 现在我们已...
    cfcodefans阅读 1,011评论 0 1
  • 简书这个平台,真的无奇不有,第一次看到手绘图记忆古诗词。喜欢。 每天带给自己惊喜,让自己不断进步的平台,好爱你哦❤❤❤❤
    苏苏21阅读 586评论 0 4
  • 惩罚会造成愤恨,报复,反叛,退缩。不要告诉,要开始以一种引导孩子参与解决问题的方式向孩子提问。赢得合作的四个步骤:...
    聚字成书阅读 184评论 0 0