机器学习200小时计划-003-数据分布

该部分和之前001的内容部分有重合。

该部分分为两大块：概率分布的基本概念，概率分布的类型（离散变量概率分布和连续变量概率分布）。

1. 概率分布的基本概念

1.1 随机变量（random variable）

“A random variable, usually written X, is a variable whose possible values are numerical outcomes of a random phenomenon. There are two types of random variables, discrete and continuous.” （http://www.stat.yale.edu/Courses/1997-98/101/ranvar.htm）由此定义可以看出，随机变量和随机事件密切相关。随机事件有两个特点：第一，这些结果在事件真正发生之前，最终结果不能确定；第二，这些事件多次发生以后，统计事件结果的发生次数，会发现这些结果呈现出一定的统计学规律，可以被人们掌握和利用。这类事件被称为不确定事件，或者被称为随机事件。

随机变量可以进一步分为离散变量和连续变量。如果随机变量X的取值是有限的或者是可数无穷尽的值，则称X为离散随机变量。如果X由全部实数或者由一部分区间组成，则称X为连续随机变量，连续随机变量的取值是不可数及无穷尽的。

1.2 古典概率

抛硬币和掷骰子这两种游戏中，游戏的结果种类是确定的，并且结果的发生概率都相同。以上这两种事件就是古典事件，它们的结果概率被称为古典概率。每种结果出现的概率可以用可能出现的结果类型的倒数来表示。古典事件每种结果的出现概率可以表示为：

古典概率

1.3 条件概率

条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为：P（A|B），读作“A在B发生的条件下发生的概率”。若只有两个事件A，B，那么，

条件概率

1.4 期望

在概率论和统计学中，数学期望(mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。

2. 概率分布

根据事件发生结果的对应数据类型的不同，分布也可以分为离散变量概率分布和连续变量概率分布。因此，离散型概率分布的概率函数被称为概率质量函数。离散型概率分布的种类有很多，比较常见的有二项分布、多项分布、超几何分布和泊松分布等。对任何连续型概率分布，曲线下方的总面积都等于 1（概率总和 100%），连续型概率分布对应的函数被称为概率密度函数。常用的连续型概率分布有指数分布、均匀分布、正态分布、伽马分布、偏态分布、贝塔分布、威布尔分布，F分布和卡方分布。

两种概率分布（注意纵坐标不同）

离散变量的概率分布主要有以下几种：二项分布，伯努利分布，超几何分布和泊松分布。

2.1 离散变量的概率分布

2.1.1 二项分布

在实际运用中，一般用“成功”表示我们感兴趣的结果发生，用“失败”表示我们不感兴趣的结果发生，这一类事件或活动被称为伯努利试验，也被形象地称为二项分布试验。它的概率分布称为二项分布。二项分布有以下特点：1）每次试验只有两种可能的结果：“成功”与“失败”，两个结果只会出现一个；2）每次试验前，如果“成功”的概率是p，那么“失败”的概率就是（1-p）；3）每次试验相互独立，每次试验结果不受其他各次试验结果的影响。

如果成功的概率用p表示，那么失败的概率则等于q=1-p；进行n次伯努利试验，成功了x次，失败的次数则为n-x，发生这种情况的概率可以用下面的公式表示：

二项分布的概率质量函数

从上面公式可以知道，概率值由试验次数n和“成功”概率p这两个随机变量决定，因此，可以将二项分布的概率质量函数表示为x～B（n，p），n和p是二项分布的两个决定参数，也就是说，一对（n，p）参数可以确定一个二项分布，因此，二项分布是一个概率分布族，随着决定参数的不同而变化。可以证明，二项分布的均值和方差为：

二项分布的均值和方差（x代表结果为“成功”的次数；n代表伯努利试验的次数；p代表“成功”结果的发生概率）

如果将事件成功发生的次数x转换成事件成功发生的比率（x/n），那么成功比率的概率分布也将服从二项概率分布，并且这两个二项分布的形态是完全一致的。区别在于比率二项分布的均值和方差将会改变，等于成功次数x二项分布的均值和方差与试验次数n的商。

成功比率的概率分布

因为二项分布由参数n和p决定，所以随着参数n和p 的不同，二项概率分布的形态也将随之改变。随着n和p的增大，二项分布将逐渐近似于正态分布。

2.1.2 伯努利分布

伯努利分布亦称“零一分布”、“两点分布”。称随机变量X有伯努利分布, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。伯努利试验成功的次数服从伯努利分布,参数p是试验成功的概率。伯努利分布是一个离散型机率分布，是N=1时二项分布的特殊情况。

随机变量X服从参数为p的伯努利分布，若令q=1一p，则X的概率函数可写为：

伯努利分布的概率质量函数

2.1.3 泊松分布

泊松概率分布考虑的是在连续时间或空间单位上发生随机事件次数的概率。通俗的解释为：基于过去某个随机事件在某段时间或某个空间内发生的平均次数，预测该随机事件在未来同样长的时间或同样大的空间内发生n次的概率。泊松分布经常被用于销量较低的商品库存控制，特别是价格昂贵、需求量不大的商品。泊松分布的概率质量函数可以由二项分布的概率质量函数推导而来。

如果假定某个随机事件在一段时间或空间内发生的平均次数为λ，可以将这段时间或空间分成n等份，那么在每等份的时间或空间内，这个随机事件发生的概率可以表示为λ/n。如果n趋向于无穷，也就是这段时间或空间被分成无数的小段，那么λ/n的值将趋于0，也就是说，在每个等份的时间或空间内要发生两次或两次以上的随机事件是不可能的。根据以上这些假定条件，在这段时间内，该随机事件发生k次的概率服从二项概率分布，发生k次随机时间的概率可以表示为：

当n趋向于无穷时，可以做如下的推导：

将以上推导结果代入二项分布的概率质量函数中，二项分布概率质量函数就变换成了泊松分布的概率质量函数：

从泊松分布的概率质量函数可以知道，泊松分布是关于历史平均次数的函数，随着历史平均次数λ的不同，泊松分布的概率分布形态也将随之改变。如下图所示，随着λ从2增加到4，泊松概率分布的形态也由右偏分布（尾巴在右）逐渐变为对称分布。

泊松分布的均值和方差也可以通过二项分布的均值和方差进行推导：

当n趋向于无穷时，q=1-λ/n→1

泊松分布的概率质量函数是由二项分布的概率质量函数极端化后推导得到的，对比两个概率质量函数可以发现，泊松分布的计算过程比较简便。所以当条件满足时，用泊松分布近似二项分布是很好的选择。从推导过程可以知道，当二项分布试验“成功”结果的出现是稀有事件时（即n趋向无穷，p很小），二项分布的概率质量函数可以变换成泊松分布的概率质量函数。那么n到底要多大，p要多小，两个函数的计算结果才能基本相同呢？有没有一个标准呢？一个通常的准则是：如果n≥20且p≤0.05，用泊松分布近似二项分布的结果是良好的；如果n≥100且p≤0.01，那么泊松分布近似二项分布的效果极好，两者的计算结果基本相同。由于二项分布概率质量函数的计算工作量比泊松分布的大，所以在n和p满足条件的情况下，可以用泊松分布的概率质量函数替代二项分布的概率质量函数来计算概率。

2.2 连续变量的概率分布

2.2.1 指数分布

指数分布描述的是两次随机事件发生的时间间隔的概率分布情况，这里的时间间隔指的是一次随机事件发生到下一次随机事件再发生的时间间隔。指数分布与泊松分布正好互补，泊松分布能够根据过去单位时间内随机事件的平均发生次数，推断未来相同的单位时间内随机事件发生不同次数的概率。而指数分布的作用是根据随机事件发生一次的平均等待时间来推断某个时间段内，随机事件发生的概率。

泊松分布和指数分布的应用

指数分布概率密度函数（x表示给定的时间长度；μ表示随机事件发生一次的平均等待时间；λ是μ的倒数，可以解释为单位时间内随机事件发生的次数）

下图是不同λ的指数分布概率密度曲线图，从图中可知，随机事件单位时间发生的次数λ越小，曲线越平缓，这是因为λ越小，表示随机事件发生一次需要等待的平均时间越长，随机事件可能发生在更长时间段内的任意一点，概率就被分散了。由此可见，指数分布也是一个概率分布族。

指数概率分布曲线图

离散型概率分布可以直接通过概率质量函数计算概率，而连续型分布则不能，需要通过对概率密度函数曲线下方的面积进行积分，积分面积才是所求的概率（见下图）。指数分布的概率密度函数经过积分后得到概率计算公式为：

指数分布的概率计算公式（x是给定的时间长度; λ为单位时间内随机事件发生的次数）

指数分布的概率是指数分布曲线下方的面积，面积被给定的时间长度x分为两部分。曲线下方的总面积等于1，表示随机事件在曲线覆盖的时间长度内（横轴表示时间长度）发生的概率是100%。

2.2.2 均匀分布

均匀概率分布是古典概率分布的连续形式，是指随机事件的可能结果是连续型数据变量，所有的连续型数据结果所对应的概率相等。

离散型的古典概率分布转换成为连续型的均匀概率分布

均匀分布的概率密度函数

均匀分布的概率公式

2.2.3 正态分布

正态概率分布是所有概率分布中最重要的形式，因为它表明被测事物处在稳定的状态下，测量数据的波动是由偶然因素引起的，所以在实践中有着广泛的应用。自然环境和人类社会的很多事物都会自发形成稳定的系统，因此，在这些环境下，许多事物和现象的分布都服从正态分布。正态分布的重要性还体现在样本数据推断总体时，当样本的数量足够大，可以利用样本的某些特征数据服从正态分布，从而能够完成推断过程，得到准确的推断结果。因此，正态分布在抽样理论中占有重要地位。

正态分布的概率密度函数（μ表示均值；σ表示标准差）

正态分布广泛存在于自然界及人类社会生产和生活的各个领域，所以引起了统计学家们的研究热情，他们发现正态分布还真有独特的性质可以利用，这个性质被形象地称为经验法则。如图 2-19所示，对于服从正态分布或近似服从正态分布的数据总体，它们的均值为μ，标准差为σ，经验法则可以表述为大约有 68.3%的数据会落在区间μ±σ内，大约95.4%的数据会落在区间μ±2σ内，大约99.7%的数据会落在区间μ±3σ内，所以经验法则也被形象地称为六西格玛（6σ）法则。

将μ=0和σ=1带入上式，可以得到标准正态分布的概率密度函数：

标准正态分布的概率密度函数

2.2.4 偏态分布

描述分布状态的有两个指标，一个是峰度系数，另一个是偏度系数。偏度系数又被称为偏斜系数，它能够帮助分析者判断数据集合的分布形态是否对称。如果数据集合是对称分布的（例如正态分布），那么它的均值、中位数和众数将会重合，且在这三个数值的两侧，其他所有的数值完全以对称的方式左右分布。如果数据集合的分布不对称，那么均值、中位数和众数必定分处在不同的位置，此时，若以均值为参照点，要么位于均值左侧的数据较多，长尾拖在右侧，称之为右偏分布；要么位于均值右侧的数据较多，长尾拖在左侧，称之为左偏分布。考虑到所有数据与均值之间的离差和总是等于零，因此，当均值左侧的数据较多时，均值的右侧必定存在数值较大的“离群”（极端）数值；同理，当均值右侧的数据较多时，均值的左侧必定存在数值较小的“离群”（极端）数值。偏度系数与分布形态的关系可以表述为：当偏度系数等于0时，称之为对称分布；当偏度系数小于0时，为之为左偏分布，长尾拖在左边；当偏度系数大于0时，称之为右偏分布，长尾拖在右边。

2.2.5 卡方（χ2）分布

卡方统计量是一个随机变量，它能够表明样本方差和总体方差之间的比值关系。卡方统计量决定的抽样分布就是卡方分布。

χ2是希腊字母，读作“卡方”；s2代表样本方差；· σ2代表总体方差；（n-1）代表自由度

如果样本量为n的所有可能样本均取自方差为σ2的正态分布总体，对每一个样本都计算它的卡方值（χ2），那么这些卡方值将构成关于样方差和总体方差的卡方分布。卡方分布是一个连续型概率分布，它的概率密度函数为：

χ2代表卡方统计量；e是自然底数，等于2.72；·v代表自由度，等于样本容量n-1；·c代表调节常数，使得卡方分布曲线下方的总面积等于1

从卡方分布的概率密度函数可知，卡方分布与T分布一样，是一个概率分布族，对每一个自由度都有一个具体的卡方分布与其对应。如下图所示，卡方分布是不对称的，长尾拖在右边（右偏）。随着自由度的增加，卡方分布逐渐变成单峰，且越来越对称，但并不是关于 0 对称，而是关于自由度对称，这些特性与Z分布和T分布有很大不同。

从卡方统计量的计算公式可知，卡方分布能够用于从样本方差到总体方差的推断性分析。除此之外，卡方分布还能用于非参数检验，被称为卡方检验。

2.2.6 F分布

现在研究两个正态分布总体之间的方差关系，假设第一个正态分布总体的方差为，第二个正态分布总体的方差为，分别从两个正态分布总体中抽取样本容量为n1和n2的样本，样本方差分别为，设定F统计量，它的计算公式为：

F统计量

F统计量其实可以被认为是由两个卡方（χ2）统计量相除得到的，因此F分布也被称为方差比分布。

F分布是以英国统计学家Fisher的名字命名的连续型概率分布，与T分布和卡方分布一样，F分布也是一个概率分布族，由分子和分母的两个自由度决定一个F分布曲线，F分布的概率密度函数为：

F代表F统计量；v1表示F统计量分子的自由度；v2表示F统计量分母的自由度；c代表修正常数，它使得F分布曲线下方的总面积等于1。

因为F统计量是由两个独立的卡方统计量被各自的自由度相除后的比，所以F分布的分布曲线与卡方分布曲线相似。如下图所示，随着自由度的增加，F分布的分布曲线也越来越对称，且对称的中点为1

由F统计量的计算公式可知，F分布能够用于推断两个总体方差之间的比值关系，是后面所要介绍的方差分析的理论基础。

2.2.7 伽马分布

伽玛分布（Gamma Distribution）是统计学的一种连续概率函数，是概率统计中一种非常重要的分布。“指数分布”和“χ2分布”都是伽马分布的特例。Gamma分布中的参数α称为形状参数（shape parameter），β称为逆尺度参数（scale parameter）。

假设随机变量X为等到第α件事发生所需之等候时间, 密度函数为:

Gamma分布的概率密度函数

伽马分布的均值与方差分别为：

2.2.8 贝塔分布（beta分布）

贝塔分布（Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数，在机器学习和数理统计学中有重要应用。在概率论中，贝塔分布，也称Β分布，是指一组定义在(0,1) 区间的连续概率分布，有两个参数 α 和 β。

Beta分布的概率密度函数为：

其中是Γ函数(Gamma Function)

随机变量X服从参数为的Β分布通常写作:

2.2.9 威布尔分布

威布尔（韦布尔）分布，即韦伯分布（Weibull distribution），又称韦氏分布或威布尔分布，是可靠性分析和寿命检验的理论基础。威布尔分布在可靠性工程中被广泛应用，尤其适用于机电类产品的磨损累计失效的分布形式。由于它可以利用概率值很容易地推断出它的分布参数，被广泛应用于各种寿命试验的数据处理。

从概率论和统计学角度看，Weibull Distribution是连续性的概率分布，其概率密度为：

其中，x是随机变量，λ>0是比例参数（scale parameter），k>0是形状参数（shape parameter）

显然，它的累积分布函数是扩展的指数分布函数，而且，Weibull distribution与很多分布都有关系。如，当k=1，它是指数分布；k=2且时，是Rayleigh distribution（瑞利分布）。

注：该部分内容主要参考书目为《人人都会数据分析：从生活实例学统计》，此外还参考了维基百科和百度百科的部分内容。

机器学习200小时计划-003-数据分布

友情链接更多精彩内容