概率分布基础知识

一、前言

概率分布（probabilitydistribution）或简称分布（distribution），是概率论的一个概念。

具有相同分布函数的随机变量一定是同分布的，因此可以用分布函数来描述一个分布，但更常用的描述手段是概率密度函数（probability density function,pdf）。

二、基本概念

1. 随机变量

随机变量（random variable）表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关，都可以数量化，即都能用数量化的方式表达。

随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数，电话交换台在一定时间内收到的呼叫次数，灯泡的寿命等等，都是随机变量的实例。

随机变量是随机试验样本空间上的单值实数函数，分为离散型随机变量与连续型随机变量。
离散型随机变量：取值可以一一列举，有限个或者可列举的无限多个。
连续型随机变量：取值不能一一列举，可能取值连续的充满了某一区间。

2.古典概率

1）概率的定义

表示一个事件发生的可能性的大小的数。

2）古典概率的定义

如果试验中可能出现的基本事件数有n个，而事件A包含的基本事件数为m个，A的概率。

3）特征

有限性
所有基本事件是有限个。
等可能性
各基本事件发生的可能性是相等的。

3. 条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为：P（A|B），读作“在B的条件下A的概率”。

若只有两个事件A，B，则条件概率公式

4. 离散变量

离散型（discrete）随机变量即在一定区间内变量取值为有限个或可数个。例如某地区某年人口的出生数、死亡数，某药治疗某病病人的有效数、无效数等。离散型随机变量通常依据概率质量函数分类，主要分为：伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量。

5. 连续变量

连续型（continuous）随机变量即在一定区间内变量取值有无限个，或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值，一批传染性肝炎患者的血清转氨酶测定值等。有几个重要的连续随机变量常常出现在概率论中，如：均匀随机变量、指数随机变量、伽马随机变量和正态随机变量。

6. 期望值

在概率论和统计学中，期望值（或数学期望、或均值，亦简称期望，物理学中称为期待值）是指在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和。

换句话说，期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。

三、离散变量概率分布

离散变量的分布函数的值域是离散的，比如只取整数值的随机变量就是属于离散分布的。

1. 伯努利分布

又称0-1分布,如果随机变量X只取0和1两个值，并且相应的概率为：

则称随机变量X服从参数为p的伯努利分布，若令q=1一p，则X的概率函数可写
为：

例子

抛一次硬币是正面向上吗？
刚出生的小孩是个女孩吗？

2. 二项分布

假设某个试验是伯努利试验，其成功概率用p表示，那么失败的概率为q=1-p。进行n次这样的试验，成功了x次，则失败次数为n-x，发生这种情况的概率可用下面公式来计算：

我们称上面的公式为二项分布(Binomial distribution)的概率质量函数。其中

二项分布的应用

将硬币抛n次，就是n重伯努利试验；
抛一颗骰子，若A表示得到“1点”，非A表示得到“非1点”。

例子
在掷3次骰子中，不出现6点的概率是：f(3,0,1/6)=(1/6)^0 * (5/6)^3=0.579。

3.泊松分布

泊松近似是二项分布的一种极限形式。其强调如下的试验前提：一次抽样的概率值p相对很小，而抽取次数n值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出，如果随机一次试验出现的概率为p，那么在n次试验中出现k次的概率按照泊松分布应该为：

其中数学常数e = 2.71828…(自然对数的底数)

在实践中如果遇到n值很大导致二项分布难于计算时，可以考虑使用泊松分布，但前提是n*p必须趋于一个有限极限。采用泊松分布的一个不太严格的规则是：

n >= 100
p <= 0.1

应用
一本书一页中的印刷错误数；
某地区在一天内邮递遗失的信件数；
某一医院在一天内的急诊病人数；
某一地区一个时间间隔内发生交通事故的次数。
例子
某工厂在生产零件时，每200个成品中会有1个次品，那么在100个零件中最多出现2个次品的概率按照泊松分布应该是：
f(100,0,1/200) + f(100,1,1/200) + f(100,2,1/200) = 0.986

四、连续变量概率分布

1. 正态分布

定义
正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution）。

公式

若随机变量X服从一个数学期望为μ、方差为σ2的正态分布，记为N(μ，σ2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

曲线
正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。
正态分布曲线

正态分布中一些值得注意的量：

密度函数关于平均值对称
平均值与它的众数（statistical mode）以及中位数（median）同一数值。
函数曲线下68.268949%的面积在平均数左右的一个标准差σ范围内。
95.449974%的面积在平均数左右两个标准差2σ的范围内。
99.730020%的面积在平均数左右三个标准差3σ的范围内。
99.993666%的面积在平均数左右四个标准差4σ的范围内。
函数曲线的拐点（inflection point）为离平均数一个标准差σ 距离的位置。

2. 均匀分布

定义
在概率论和统计学中，均匀分布也叫矩形分布，它是对称概率分布，在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值，通常缩写为U（a，b）。

均匀分布的特征是数据在一个区间中均匀地分布，最小值为 a，最大值为 b。概率密度函数是：

分布函数：

3. 指数分布

定义
在概率理论和统计学中，指数分布（也称为负指数分布）是描述泊松过程中的事件之间的时间的概率分布，即事件以恒定平均速率连续且独立地发生的过程。这是伽马分布的一个特殊情况。它是几何分布的连续模拟，它具有无记忆（Memoryless Property，又称遗失记忆性）的关键性质。除了用于分析泊松过程外，还可以在其他各种环境中找到。

公式

其中λ > 0是分布的一个参数，常被称为率参数（rate parameter）。即每单位时间内发生某事件的次数。指数分布的区间是[0,∞)。如果一个随机变量X呈指数分布，则可以写作：X~ E（λ）。

曲线

4. 贝塔（beta）分布

定义
贝塔分布（Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数，在机器学习和数理统计学中有重要应用。在概率论中，贝塔分布，也称Β分布，是指一组定义在(0,1) 区间的连续概率分布。

公式

在概率论中，贝塔分布，也称B分布，是指一组定义在区间的连续概率分布，有两个参数。

使用要点

先验概率就是事情尚未发生前，我们对该事发生概率的估计。利用过去历史资料计算得到的先验概率，称为客观先验概率；当历史资料无从取得或资料不完全时，凭人们的主观经验来判断而得到的先验概率，称为主观先验概率。例如抛一枚硬币头向上的概率为0.5，这就是主观先验概率。
后验概率是指通过调查或其它方式获取新的附加信息，利用贝叶斯公式对先验概率进行修正，而后得到的概率。
先验概率和后验概率的区别：先验概率不是根据有关自然状态的全部资料测定的，而只是利用现有的材料(主要是历史资料)计算的；后验概率使用了有关自然状态更加全面的资料，既有先验概率资料，也有补充资料。另外一种表述：先验概率是在缺乏某个事实的情况下描述一个变量；而后验概率是在考虑了一个事实之后的条件概率。
共轭分布(conjugacy)：后验概率分布函数与先验概率分布函数具有相同形式。

5. 卡方分布

定义
若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和

构成一新的随机变量，其卡方分布
规律称为χ2分布（chi-square distribution），其中参数n称为自由度，正如正态分布中均值或方差不同就是另一个χ2正态分布一样，自由度不同就是另一个分布。记为 Q~χ2(k). 卡方分布是由正态分布构造而成的一个新的分布，当自由度n很大时，χ2分布近似为正态分布。对于任意正整数k，自由度为 k的卡方分布是一个随机变量X的机率分布。

卡方分布是指样本方差和总体方差之间的比值关系。
如果样本量为n的样本集取自方差为σ 的正态分布总体，对每一个样本都计算他的卡方值(χ2)，那么卡方值将构成样本方差和总体方差的卡方分布。
卡方分布是右偏的，但是当样本量，即自由度增加时，会逐渐趋向于正态分布。

6. F分布

定义

概率分布基础知识