数据分析之数据分布

概率分布用以表达随机变量取值的概率规律,根据随机变量所属类型的不同,概率分布取不同的表现形式,主要分为离散变量概率分布连续变量概率分布

离散型分布:二项分布、多项分布、伯努利分布、泊松分布。
连续型分布:均匀分布、正态分布、指数分布、伽玛分布、偏态分布、贝塔分布、威布尔分布、卡方分布、F分布。

连续型随机变量:若随机变量X的分布函数F(X)可以表示为一个非负可积函数f(x)的积分,则称X为连续型随机变量,f(x)称为x的概率密度函数,积分值为X的数学期望


一、离散型分布
(一)伯努利分布
伯努利分布只有两种可能的结果,1-成功和0-失败,具有伯努利分布特征的随机变量X可以取值为1的概率为p,取值为0的概率1-p,其中成功和失败的概率不一定相等。
来自伯努利分布的随机变量X的期望值为:E(X)=1p+0(1-p)=p
方差为:V(X)=E(X²)–[E(X)]² =p–p²

(二)二项分布
如果做n次伯努利试验,每次结果只有0,1两种结果,如果n=1的话显然是伯努利分布。二项分布的每一次尝试都是独立的,前一次投掷的结果不能决定或影响当前投掷的结果,只有两个可能结果并且重复n次的实验叫做二项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。n次独立重复事件发生k次的概率为:


q=1-p
均值和方差:np、npq

(三)多项分布
多项分布是二项分布的推广扩展,在n次独立实验中每次只输出k种结果中的一个,且每种结果都有一个确定概率,多项分布给出在多种输出状态的情况下,关于成功次数的各种组合的概率。

举例投掷n次骰子,这个骰子共有6种结果输出,且1点出现概率为p1,2点出现概率p2,…多项分布给出了在n次试验中,骰子1点出现x1次,2点出现x2次,3点出现x3次,…,6点出现x6次。这个结果组合的概率公式为:


xi为第i种状态输出结果的频度,根据多项分布的极大似然估计得:

(四)泊松分布
大量事件是有固定频率的。特点:可以预估这些事件的总数,但是没法知道具体的发生时间和发生地点。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?

泊松分布是个计数过程,通常用于模拟一个非连续事件连续时间中的发生次数。
主要特点:
1.任何一个成功事件不能影响其它的成功事件(N(t+s)-N(t)增量之间互相独立);
2.经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率;
3.时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零;

泊松分布即描述某段时间内,事件具体的发生频率。
泊松分布的概率分布函数公式如下所示:


等号左边P表示概率,N表示某种函数关系,t表示时间,n表示数量,1小时内出生3个婴儿的概率,就表示为 P(N(1)=3)等号的右边,λ表示事件的频率(如平均每小时出生3个),λt表示长度为t的时间间隔中的平均事件数。
泊松分布的均值和方差均为λt。

二、连续型分布
(一)均匀分布
均匀分布所有可能结果n个数的发生概率是相等的,均匀分布变量X的概率密度函数([概率密度函数]概念是针对连续分布的,求积分即发生概率)为:



均匀分布密度函数曲线的形状是一个矩形,这也是均匀分布又称为矩形分布的原因,a和b是参数。例子:花店每天销售的花束数量是均匀分布的,最多为40,最少为10,计算日销售量在15到30之间的概率(即密度函数曲线下的面积):(30-15)*(1/(40-10))=0.5。遵循均匀分布的变量X的期望和方差为:(a+b)/2、(b-a)^2/12

(二)正态分布
正态分布的特征:1.分布的平均值、中位数和众数一致;2.分布曲线是钟形的,关于线x=μ对称;3.曲线下的总面积为1;4.两个正态分布之积仍为正态分布;5.两个独立且服从正态分布的随机变量的和服从正态分布。
若随机变量X服从位置参数μ,尺度参数sigma^2 的概率分布N(μ,sigma^2),且其概率密度函数为:


正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率:

“小概率事件”通常指发生概率小于5%的事件(认为在一次实验中几乎不可能发生),X落在3倍标准差以外的概率小于3%,在实际问题中常认为相应的事件不会发生,

看作是随机变量X实际可能的取值区间(3sigma法则)。

(三)指数分布
指数分布是独立事件发生的时间间隔。例如婴儿出生的时间间隔、来电的时间间隔、奶粉销售的时间间隔、网站访问的时间间隔

指数分布的公式可以从泊松分布推断出来。如果下一个婴儿出生要间隔时间t,就等同于t之内没有任何婴儿出生

反过来,事件在时间t之内发生的概率,就是1减去上面的值(即累计分布函数公式)
指数分布的图形大体如下:随着间隔时间变长,事件的发生概率急剧下降,呈现指数式衰减。
指数分布

(四)伽玛分布
Gamma分布即多个独立且相同分布的指数分布变量和的分布,即从头开始到第n次事件的发生时间。



(五)共轭先验分布
共轭是选取一个函数作为似然函数的先验概率分布,使得后验分布函数和先验分布函数形式一致(Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布)。

贝叶斯规则:后验分布=似然函数*先验概率分布

(六)贝塔分布
贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。当不知道某个具体事件的发生概率时,贝塔分布可以给出所有概率出现的可能性大小。
例如 α=0.99,β=0.5,贝塔分布B(α,β)如下图所示:


栗子:https://www.cnblogs.com/shixisheng/p/7197623.html?utm_source=itdadao&utm_medium=referral

(七)卡方分布


三、分布之间的关系
(一)伯努利分布和二项分布的关系:
1.伯努利分布是二项分布的单次试验的特例,即单次二项分布试验;
2.二项分布和伯努利分布的每次试验都只有两个可能的结果;
3.二项分布每次试验都是互相独立的,每一次试验都可以看作一个伯努利分布。

(二)泊松分布和二项分布的关系:
以下条件下,泊松分布是二项分布的极限形式:
1.试验次数非常大或者趋近无穷,即n→∞;
2.每次试验的成功概率相同且趋近零,即p→0;
3.np=λ是有限值。

(三)正态分布和二项分布的关系&正态分布和泊松分布的关系:
以下条件下,正态分布是二项分布的一种极限形式:
1.试验次数非常大或者趋近无穷,即n→∞;
2.p和q都不是无穷小

当参数λ→∞的时候,正态分布是泊松分布的极限形式。

(四)指数分布和泊松分布的关系:
如果随机事件的时间间隔服从参数为λ的指数分布,那么在时间周期t内事件发生的总次数服从泊松分布,相应的参数为λt。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容

  • 随机变量是根据偶然性取值的变量。我们在谈到随机变量时,通常是以“概率分布”的形式来描述他们。也即:随机变量落在每一...
    小狸投资阅读 5,346评论 1 7
  • 第一章 随机事件及其概率 1.1随机事件 一、随机现象 并不总是出现相同的结果,结果并不只一个,哪个结果出现是未知...
    Black_Eye阅读 5,600评论 0 6
  • 一、基本概念 1. 随机变量 随机变量是试验结果的实值函数。举例来说,掷一枚质地均匀的骰子,可能出现的结果有1,2...
    Vicky_1ecd阅读 3,345评论 0 1
  • 故事全篇:《妖说妖话之梦未央》目录 上一篇:《妖说妖话之梦未央》四十四、欠我一个人情 依稀记得莉姐曾经说过,...
    慕颜未央阅读 593评论 0 0
  • 这是我第二次来简书,第一次在过年前后。 虽然天天流水账似的写,没有一篇精致,从来写完就拉倒,看都不看,改更甭提,都...
    碎影舞斜阳1阅读 178评论 0 1