正态分布

正态分布，英语叫“Normal Distribution”，normal是普通的，正常的意思。如果翻译成“普通分布”，或者“常规分布”，马上就会想到这是在自然界中最常见的一种分布形式，但翻译成“正态分布”，对于像我这种普通人来说，很难立刻想到这是最常见的一种分布。

正态分布是由系统中连续随机变量的概率密度函数定义的。设X 是随机变量， $f(x)$ 是概率密度函数，即在一个无穷小的范围内，随机变量出现的概率。

$f(x) ≥ 0 :\forall x\in (-\propto , +\propto )$ 并且 $\int_{-\propto }^{+\propto } f(x)dx = 1$

正态分布或高斯分布的概率密度函数公式为：

$f(x,\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi } } e^\frac{-(x-\mu )^2 }{2\sigma ^2 }$

其中， $x$ 为随机变量； $μ$ 为随机变量x在整个变化范围内 $(−∞,+∞)$ 的平均值； $σ$ 为随机变量取值的标准差 (Standard Deviation)。

在正态分布中，所谓“随机变量”指的是在一定变化范围内其值可能为任意一个数值的变量。比如说一个学校学生的身高就是一个随机变量，它可能为1.5 m，也可能为2.0 m，极端的情况它也可能是5 m，只不过这种可能能太低太低了。这个范围是受到实际情况限制的，纯碎数学意义上的正态分布，随机变量的取值范围不受实际条件的限制，可以扩展到 $(−∞,+∞)$ ，并且可以连续变化。当我们确定了随机变量的平均值和标准偏差后，概率密度函数 $f(x)$ 也就确定下来了，那么对于上任意范围内 X 出现的概率也就可以计算出来。

一般地，对于符合正态分布的随机变量，其标准差是大于0 的实数，表征数据的分布情况。其值越大，则数据越分散，曲线越宽泛；标准差越小，则数据越集中，曲线高而窄。正态分布的钟形曲线是左右对称的，对称轴正好在平均值上，即 $x =\mu$ 正态分布有任何正的标准差。如果采用标准差的倍数分割随机变量的取值范围，那么我们就可以确定不同范围内x出现的概率，比如：

在 $（\mu -\sigma ，\mu +\sigma ）$ 范围内，x出现的概率约为68%；

在 $（\mu -2\sigma ，\mu +2\sigma ）$ 范围内，x出现的概率约为95%；

在 $（\mu -3\sigma ，\mu +3\sigma ）$ 范围内，x出现的概率约为99.7%。

图1. 正态分布曲线

以下是正态分布的一些重要性质：

（1）在正态分布中，平均数、中位数和模相等。

（2）曲线下的总面积为1，即在全部范围内，随机变量x出现的概率为100%。

（3）正态分布曲线以 $x=\mu$ 为轴线，左右对称分布。

（4）正态分布曲线由平均值和标准差来定义。

学生的成绩、人体的身高和血压等数据都符合正态分布。但实际情况，学生的成绩并不符合正态分布。

正态分布咋来的呢？

如果你要向一个直角坐标系投掷飞镖，目标靶心就是直角坐标系的坐标原点，但你知道大部分情况下你都不会正中靶心的，假设所有的投掷都是随机的，并且：

——随机误差与坐标系的方向无关，所以你不要考虑重力会不会对飞镖的位置有影响，现在我们认为，No。

——飞镖的x，y方向时相互独立的，也即是说飞镖落在y的位置不会影响到它在x方向的位置，反之亦然。

——大误差出现的可能性比小误差的小。（这个假设符合实际吗？比如误差为0.00001mm 和误差为3mm，哪个概可能性大，哪个可能性小？）

图2. 飞镖落在坐标系内各种位置的可能性

根据上述假设，在图2中，飞镖落在A处的可能性比落在B位置的可能性要大，同样，落在B位置的概率又大于落在C位置的概率，因为相对B，A更靠近靶心；相对于C，B更靠近靶心。右图中，落在F区域内的概率大于落在E区域内的概率，后者的概率又大于D区域概率，——因为区域的面积依次减小。

所以飞镖落在某一区域的概率与该区域的大小有关，因此我们可以设飞镖落在 $(x,x+\Delta x)$ 范围内的概率为 $p(x)\Delta x$ 。类似地，飞镖落在 $(y,y+\Delta y)$ 范围的几率可设为 $p(y)\Delta y$ 。

图3.

那么在 $r(x,y)$ 位置上的 $\Delta x\Delta y$ 区域内，飞镖出现的概率为

$p(x)\Delta x\cdot p(y)\Delta y=p(x)p(y)\Delta x\Delta y=g(r)\Delta x\Delta y$

这就是说：

$g(r)=p(x)p(y)$

方程两边同时对幅角 $\theta$ 取导数，左边式 $g(r)$ 中因为不含 $\theta$ ，所以导数为0，即

$0=p(x)\frac{dp(y)}{d\theta } +p(y)\frac{dp(x)}{d\theta } =p(x)\frac{dp(y)}{dy } \frac{dy}{d\theta } +p(y)\frac{dp(x)}{dx }\frac{dx}{d\theta }$

将 $y =rsin\theta ;x=rcos\theta$ 代入上式：

$p(x)\frac{dp(y)}{dy} (rcos\theta) -\frac{dp(x)}{dx} p(y)(rsin\theta) =0$

即

$\frac{p’(x)}{xp(x)} =\frac{p’(y)}{yp(y)}$

对于任意不相关的 $x,y$ ,上述微分方程都成立，那么必然就有

$\frac{p’(x)}{xp(x)} =\frac{p’(y)}{yp(y)} =C(onstant)$

分别解微分方程 $\frac{p’(x)}{xp(x)} =C$ 和 $\frac{p’(y)}{yp(y)} =C$

得

$ln(p(x))=C\frac{x^2 }{2} +c$

由此，

$p(x)=Ax^\frac{Cx^2}{2}$

因为 $x$ 越大，概率越小，但 $p(x)$ 大于0，所以C必然小于0，设 $C=-k,k>0$

所以有

$p(x)=Ae^\frac{-kx^2}{2}$

这是正态分布曲线的通用表达式，现在我们来确定其中的常数A和k。

我们知道，在整个取值范围 $(−∞,+∞)$ 内，随机变量x出现的几率为1，即

$\int_{−∞}^{+∞} p(x)dx=\int_{−∞}^{+∞} Ae^\frac{-kx^2}{2}dx=1$

重新整理为

$\int_{−∞}^{+∞} e^\frac{-kx^2}{2}dx=\frac{1}{A}$

因为 $e^\frac{-kx^2}{2}$ 为偶函数，在 $x=0$ 位置左右对称，所以

$\int_{−∞}^{+∞} e^\frac{-kx^2}{2}dx=2\int_{0}^{+∞} e^\frac{-kx^2}{2}dx$

即有

$\int_{0}^{+∞} e^\frac{-kx^2}{2}dx=\frac{1}{2A}$

同样地，

$\int_{0}^{+∞} e^\frac{-ky^2}{2}dy=\frac{1}{2A}$

两式相乘，得

$\int_{0}^{+∞}\int_{0}^{+∞} e^\frac{-k(x^2+y^2)}{2}dxdy=\frac{1}{4A^2}$

左边用极坐标的形式表达为

$\int_{0}^{+∞}\int_{0}^{\frac{\pi }{2} } e^\frac{-kr^2}{2}rdrd\theta =\frac{1}{4A^2}$

左边可积，即可得

$\frac{\pi }{2k} =\frac{1}{4A^2}$

则

$A=\sqrt{\frac{k}{2\pi } }$

因此概率密度函数的形式为：

$p(x)=\sqrt{\frac{k}{2\pi } }e^\frac{-kx^2}{2}$

那么问题是： $k$ 又怎么确定呢？

当我们在谈论概率时，首先想到的是平均值是什么？数据是怎么分布的？k的大小就会涉及到平均值和分布的问题。现在问题是：如果你知道概率密度函数 $p(x)$ ,那么你怎么用它来表达平均值的大小呢？首先你要理解 $p(x)$ 的含义，它表示在随机变量在x位置 $dx$ 的范围内出现的概率， $p(x)dx$ 表示随机变量取任意 $x$ 的百分数， $xp(x)dx$ 表示随机变量为 $x$ 时在平均数中的贡献值，在取值范围内将所有的贡献值加起来就是平均值了，即平均值 $\mu =\int_{−∞}^{+∞} xp(x)dx$ 。类似地，方差大小可表示为 $\sigma ^2 =\int_{−∞}^{+∞} (x-\mu )^2 p(x)dx$ 。

你知道函数 $xp(x)$ 为奇函数，所以平均值 $\mu =\int_{−∞}^{+∞} xp(x)dx=0$ ，并且 $\sigma ^2 =\int_{−∞}^{+∞} x^2 p(x)dx$ 。将 $p(x)=\sqrt{\frac{k}{2\pi } }e^\frac{-kr^2}{2}$ 带入到方差的表达式中，得：