工具精神——正态分布

正态分布曲线

正态分布曲线虽然看上去很美，但数学史上任何一个定理的发明几乎都不可能一蹴而就，很多往往经历了几代人的持续努力。因为在科研上诸多观念的革新和突破是有着很多的不易的，或许某个定理在某个时期由某个人点破了，现在的我们看来一切都是理所当然，但在一切没有发现之前，可能许许多多的顶级学者毕其功于一役，耗尽一生，努力了几十年最终也是无功而返。现在概率论与数理统计的教材上，一上来介绍正态分布便给出其概率密度分布函数，却从来没有说明这个分布函数是通过什么原理推导出来的。数学家们是如何利用e、π通过复杂的表达式来表达正态分布的呢？我们在实践中大量的使用正态分布，却对这个分布的来龙去脉知之甚少。

一、惠更斯关于期望的定理

所谓概率，即指一个事件发生，一种情况出现的可能性大小的数量指标，介于0和1之间，这个概念最初形成于16世纪，早期很多概率论中的探讨却与掷骰子等赌博活动有着不可分割的联系，可以说，这些赌博活动反而推动了概率论的早期发展。

历史是纷繁多杂的，咱们从惠更斯的机遇的规律一书入手，此人指导过微积分的奠基者之一的莱布尼兹学习数学，与牛顿等人也有交往，终生未婚。如诸多历史上有名的人物一般，他们之所以被后世的人们记住，是因为他们在某一个领域的杰出贡献，这个贡献可能是提出了某一个定理或者公式，换句话来说，就是现今人们口中所说的代表作。

惠更斯1657年发表了《论赌博中的计算》，被认为是概率论诞生的标志。同时对二次曲线、复杂曲线、悬链线、曳物线、对数螺线等平面曲线都有所研究。《论赌博中的计算》中，惠更斯先从关于公平赌博值的一条公理出发，推导出有关数学期望的三个基本定理，如下述内容所示：

公理：每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数。

对这一公理至今仍有争议。所谓公平赌注的数额并不清楚,它受许多因素的影响。但惠更斯由此所得关于数学期望的3个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯(Laplace,1749—1827)用数学期望来定义古典概率。在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反。

关于数学期望的三个命题为:

命题1　若某人在赌博中以等概率1/2获得赌金a元、b元，则其数学期望值为：a*1/2+b*1/2，即为(a+b)/2；

命题2　若某人在赌博中以等概率1/3获得赌金a、b元和c元，则其数学期望值为(a+b+c)/3元；

命题3　若某人在赌博中以概率p和q(p≥0,q≥0,p+q=1)获得赌金a元、b元，则获得赌金的数学期望值为p*a+q*b元。

这些今天看来都可作为数学期望定义，不准确的说，数学期望来源于取平均值。同时，根据上述惠更斯的3个命题不难证明：若某人在赌博中分别以概率p1...，pk（p1+..+pk=1）分别赢得a1，..ak元，那么其期望为p1*a1+...+pk*ak。

但惠更斯关于概率论的讨论局限于赌博中，而把概率论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利，他在惠更斯的论赌博中的计算一书出版的56年后，即1733年出版了划时代的著作：推测术。伯努利在此书中，不仅对惠更斯的关于掷骰子等赌博活动中出现的各种情况的概率进行了计算，而且还提出了著名的“大数定律”，这个定律在历史上甚至到今天，影响深远，后续诸多的统计方法和理论都是建立在大数定律的基础上。

二、伯努利的大数定律及其如何而来

那何谓伯努利大数定律呢？

设在n次独立重复试验中，事件X发生的次数为。事件X在每次试验中发生的概率为P。则对任意正数，

见公式1。

定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性。就是说当n很大时，事件发生的频率与概率有较大偏差的可能性很小。

这个定理如何而来的呢？

咱们来看一个简单的袋中抽球的模型，袋中有a个白球，b个黑球，则从袋中取出白球的概率为p=a/(a+b)，有放回的充袋中抽球N次(每次抽取时保证袋中a+b个球的每一个都有同等机会被抽出)，记抽到的白球的次数为x，然后以x/n这个值去估计p，这个估计方法至今仍是数理统计学中最基本的方法之一。

伯努利试图证明的是：当n充分无限大时，x/n无限逼近于p。

尽管现在我们看来，上述这个结论毫无疑问是理所当然的，但直到1909年才由波莱尔证明。此外，此伯努利大数定律是我们今天所熟知的契比雪夫不等式的简单推论，但须注意的是在伯努利那个时代，并无“方差”这个概念，更不用说从这个不等式而推论出伯努利大数定律了。

在1733年，棣莫弗发展了用正态分布逼近二项分布的方法，这对于当时而言，是一实质性的深远改进。

三、棣莫弗的二项概率逼近

棣莫弗之所以投身到二项概率的研究，非因伯努利之故，而又是赌博问题。有一天一个哥们，也许是个赌徒，向棣莫弗提了一个和赌博相关的一个问题：A,B两人在赌场里赌博，A,B各自的获胜概率是p和q=1−p，赌n局，若A赢的局数X>np，则A付给赌场X−np元，否则B付给赌场np−X元。问赌场挣钱的期望值是多少？

问题的本质是一个二项分布。棣莫弗后来虽然做了一些计算并得到了一些近似结果，但是还不够，随后有人将棣莫弗的研究工作告诉给了斯特林，于是，便直接催生了在数学分析中必学的一个重要公式斯特林公式(斯特林公式最初发表于1730年，而后棣莫弗改进了斯特林公式)：

见公式2。

1733年，结合斯特林公式，棣莫弗有了一个决定性意义的举动，正态分布的概率密度(函数)在积分公式中出现了！于此得到了一个结论，原来二项分布的极限分布便是正态分布。与此同时，还引出了统计学史上占据重要地位的中心极限定理。

「棣莫弗-拉普拉斯定理」：设随机变量Xn(n=1,2...)服从参数为p的二项分布，则对任意的x，恒有下式成立：

公式3.

我们便称此定理为中心极限定理。而且还透露着一个极为重要的信息：1730年，棣莫弗用二项分布逼近竟然得到了正态密度函数，并首次提出了中心极限定理。

棣莫弗的工作对数理统计学有着很大的影响，棣莫弗40年之后，拉普拉斯建立中心极限定理的一般形式，20世纪30年代最终完成独立和中心极限定理最一般的形式，在中心极限定理的基础之上，统计学家们发现当样本量趋于无穷时，一系列重要统计量的极限分布如二项分布，都有正态分布的形式，也就是说，这也构成了数理统计学中大样本方法的基础。

我之所以不厌其烦的要论述这个棣莫弗的二项概率逼近的相关过程，是想说明一点：各个定理.公式彼此之前是有着紧密联系的，要善于发现其中的各种联系。概率论与数理统计教材讲正态分布的时候，一上来便给出正态分布的概率密度(函数)，然后告诉我们说，符合这个概率密度(函数)的称为正态分布，紧接着阐述和证明相关性质，最后说了一句：”在自然现象和社会现象中，大量随机变量都服从或近似服从正态分布，如人的身高，某零件长度的误差，海洋波浪的高度“，然后什么也没说了。连正态分布中最基本的两个参数位置参数和尺度参数的意义都不告诉我们(位置参数即为数学期望，尺度参数为即为方差，换句话说，有了期望和方差，即可确定正态分布)。随后，教材上便开始讲数学期望，方差等概念，最后才讲到中心极限定理。或许在读者阅读本文之后，这些定理的先后发明顺序才得以知晓。殊不知：正态分布的概率密度(函数)形式首次发现于棣莫弗-拉普拉斯中心极限定理中，即先有中心极限定理，而后才有正态分布。

数学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的，现代的数学课本都是按照数学内在的逻辑进行组织编排的，虽然逻辑结构上严谨优美，却把数学问题研究的历史痕迹抹得一干二净。DNA双螺旋结构的发现者之一JamesWaston在他的名著《DNA双螺旋》序言中说：“科学的发现很少会像门外汉所想象的一样，按照直接了当合乎逻辑的方式进行。”

四、贝叶斯方法

前面，介绍了惠更斯、伯努利和棣莫弗等人的重大成果，无疑在这些重要发明中，二项分布都占据着举重轻重的地位。这在早期的概率统计史当中，也是唯一一个研究程度很深的分布。但除了伯努利的大数定律及棣莫弗的二项逼近的研究成果外，在18世纪中叶，为了解决二项分布概率的估计问题，出现了一个影响极为广泛的贝叶斯方法，贝叶斯方法经过长足的发展，如今已经成为数理统计学中的两个主要学派之一：贝叶斯学派，牢牢占据数理统计学领域的半壁江山。

贝叶斯曾经发表了题为《机遇理论中一个问题的解》的遗作，此文在他发表后很长一段时间起，在学术界没有引起什么反响，直到20世纪以来，突然受到人们的重视，此文也因此成为贝叶斯学派最初的奠基石。

有人说贝叶斯发表此文的动机是为了解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题。所谓逆概率，顾名思义，就是求概率问题的逆问题：已知事件的概率为P，可由之计算某种观察结果的概率如何；反过来，给定了观察结果，问由之可以对概率P作何推断。也就是说，正概率是由原因推结果，称之为概率论；而逆概率是结果推原因，称之为数理统计。

五、最小二乘法，数据分析的瑞士军刀

事实上，在成百上千的各式各样的方法中，取算术平均恐怕是最广为人知使用也最为广泛的方法，因为可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱而以此作为向爸妈讨要零花钱的依据。而我们大多数成年人也经常把“平均说来”挂在嘴边。故此节要讲的最小二乘法其实并不高深，它的本质思想即是来源于此算术平均的方法。

不太精确的说，一部数理统计学的历史，就是从纵横两个方向对算术平均进行不断深入研究的历史，纵的方面指平均值本身，诸如伯努利及其后众多的大数定律，棣莫弗-拉普拉斯中心极限定理，高斯的正态误差理论，这些在很大程度上都可以视为对算术平均的研究成果，甚至到方差，标准差等概念也是由平均值发展而来；

横的方面中最为典型的就是此最小二乘法。而算术平均也是解释最小二乘法的最简单的例子。使误差平方和达到最小以寻求估计值的方法，则称为最小二乘估计(当然，取平方和作为目标函数只是众多可取的方法之一，例如也可以取误差4次方或绝对值和，取平方和是人类千百年实践中被证实行之有效的方法，因此被普遍采用)。

何谓最小二乘法？实践中，常需寻找两变量之间的函数关系，比如测定一个刀具的磨损速度，也就是说，随着使用刀具的次数越多，刀具本身的厚度会逐渐减少，故刀具厚度与使用时间将成线性关系，假设符合f（t）=at+b（t代表时间，f(t)代表刀具本身厚度），a，b是待确定的常数，那么a、b如何确定呢？

最理想的情形就是选取这样的a、b，能使直线y=at+b所得到的值与实际中测量到的刀具厚度完全符合，但实际上这是不可能的，因为误差总是存在难以避免的。故因误差的存在，使得理论值与真实值存在偏差，为使偏差最小通过偏差的平方和最小确定系数a、b，从而确定两变量之间的函数关系f（t）=at+b。

这种通过偏差的平方和为最小的条件来确定常数a、b的方法，即为最小二乘法。最小二乘法的一般形式可表述为：

见公式4.

在此，说点后话，最小二乘法是与统计学有着密切联系的，因为观测值有随机误差，所以它同正态分布一样与误差论有着密切联系(说实话，最小二乘法试图解决的是误差最小的问题，而正态分布则是试图寻找误差分布规律的问题，无论是最小二乘法，还是正态分布的研究工作，至始至终都围绕着误差进行)。

那么，最小二乘法是如何发明的呢？据史料记载，最小二乘法最初是由法国数学家勒让德于1805年发明的。那勒让德发明它的动机来源于哪呢？18世纪中叶，包括勒让德、欧拉、拉普拉斯、高斯在内的许多天文学家和数学家都对天文学上诸多问题的研究产生了浓厚的兴趣。比如以下问题：土星和木星是太阳系中的大行星，由于相互吸引对各自的运动轨道产生了影响，许多大数学家，包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。

勒让德承担了一个政府给的重要任务，测量通过巴黎的子午线的长度。

海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

这些问题都可以用如下数学模型描述：我们想估计的量是β0,⋯,βp，另有若干个可以测量的量x1,⋯,xp,这些量之间有线性关系

y=β0+βx1+βx2+……βpxp

如何通过多组观测数据求解出参数β0,⋯,βp呢？欧拉和拉普拉斯采用的都是求解线性方程组的方法。但是面临的一个问题是，有n组观测数据，p+1个变量，如果n>p+1，则得到的线性矛盾方程组，无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察，把n个线性方程分为p+1组，然后把每个组内的方程线性求和后归并为一个方程，从而就把n个方程的方程组化为p+1个方程的方程组，进一步解方程求解参数。这些方法初看有一些道理，但是都过于经验化，无法形成统一处理这一类问题的一个通用解决框架。

以上求解线性矛盾方程的问题在现在的本科生看来都不困难，就是统计学中的线性回归问题，直接用最小二乘法就解决了，可是即便如欧拉、拉普拉斯这些数学大牛，当时也未能对这些问题提出有效的解决方案。可见在科学研究中，要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的，基本思想就是认为测量中有误差，所以所有方程的累积误差为：∑（观测值-理论值）²。我们求解出导致累积误差最小的参数即可。

上面我们已经看到，是勒让德最初发明的最小二乘法，那为何历史上人们常常把最小二乘法的发明与高斯的名字联系起来呢？(注：勒让德时期的最小二乘法还只是作为一个处理测量数据的代数方法来讨论的，实际上与统计学并无多大关联，只有建立在了测量误差分布的概率理论之后，这个方法才足以成为一个统计学方法。尽管拉普拉斯用他的中心极限定理定理也可以推导出最小二乘法，但无论是之前的棣莫弗，还是当时的勒让德，还是拉普拉斯，此时他们这些研究成果都还只是一个数学表达式而非概率分布)。因为1829年，高斯提供了最小二乘法的优化效果强于其他方法的证明，即为高斯-马尔可夫定理。也就是说勒让德最初提出了最小二乘法，而却是高斯让最小二乘法得以巩固而影响至今。且高斯对最小二乘法的最大贡献在于他是建立在正态误差分布的理论基础之上的(后续更是导出了误差服从正态分布的结论)，最后，1837年，统计学家们正式确立误差服从正态分布，自此，人们方才真正确信：观测值与理论值的误差服从正态分布。

六、误差分布曲线的建立

十八世纪，天文学的发展积累了大量的天文学数据需要分析计算，应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则，千百年来的数据使用经验说明算术平均能够消除误差，提高精度。平均有如此的魅力，道理何在，之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论：测量中的随机误差应该服从怎样的概率分布？算术平均的优良性和误差的分布有怎样的密切联系？

伽利略在他著名的《关于两个主要世界系统的对话》中，对误差的分布做过一些定性的描述，主要包括：误差是对称分布的分布在0的两侧；大的误差出现频率低，小的误差出现频率高。

用数学的语言描述，也就是说误差分布函数f(x)关于0对称分布，概率密度随|x|增加而减小，这两个定性的描述都很符合常识。

（一）拉普拉斯的工作

在1772-1774年间，拉普拉斯加入到了寻找误差分布函数的队伍中。与辛普森不同，拉普拉斯不是先假定一种误差分后去设法证明平均值的优良性，而是直接射向应该去怎么的分布为误差分布，以及在确定了误差分布之后，如何根据观测值x1，x2，x3，x4……xn去估计真值θ。

最终1772年，拉普拉斯求得的分布密度函数为：

以这个函数作为误差密度，拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值，即用什么方法通过观测值去估计真值呢θ？要知道咱们现今所熟知的所谓点估计方法、矩估计方法，包括所谓的极大似然估计法之类的，当时可是都还没有发明。

拉普拉斯可以算是一个贝叶斯主义者，他的参数估计的原则和现代贝叶斯方法非常相似：假设先验分布是均匀的，计算出参数的后验分布后，取后验分布的中值点，即1/2分位点，作为参数估计值。可是基于这个误差分布函数做了一些计算之后，拉普拉斯发现计算过于复杂，最终没能给出什么有用的结果，故拉普拉斯最终还是没能搞定误差分布的问题。

至此，整个18世纪，可以说，寻找误差分布的问题，依旧进展甚微，下面，便将轮到高斯出场了，历史总是出人意料，高斯以及其简单的手法，给了这个误差分布的问题一个圆满的解决，其结果也就成为了数理统计发展史上的一块重要的里程碑。

（二）高斯导出误差正态分布

事实上，棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式，到了1780年后，拉普拉斯也推出了中心极限定理的一般形式，但无论是棣莫弗，还是拉普拉斯，此时他们这些研究成果都还只是一个数学表达式而非概率分布，也就是压根就还没往误差概率分布的角度上去思索，而只有到了1809年，高斯提出“正态误差”的理论之后，它才得以“概率分布“的身份进入科学殿堂，从而引起人们的重视。

追本溯源，正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢？

1801年1月，天文学家GiuseppePiazzi发现了一颗从未见过的光度8等的星在移动，这颗现在被称作谷神星（Ceres）的小行星在夜空中出现6个星期，扫过八度角后在就在太阳的光芒下没了踪影，无法观测。而留下的观测数据有限，难以计算出他的轨道，天文学家也因此无法确定这颗新星是彗星还是行星，这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了，这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道，并预言了它在夜空中出现的时间和位置。1801年12月31日夜，德国天文爱好者奥伯斯(HeinrichOlbers)在高斯预言的时间里，用望远镜对准了这片天空。果然不出所料，谷神星出现了！

高斯为此名声大震，但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论后，才将他的方法公布于众，而其中使用的数据分析方法，就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的呢？请看下文。

高斯的作法相比于拉普拉斯，提出了两个创新的想法。

第一个创新的想法便是：高斯并没有像前面的拉普拉斯那样采用贝叶斯的推理方式，而是直接取L(θ)达到最小值的θ作为θ的估计值，这也恰恰是他解决此问题采用的创新方法，现在我们把L(θ)称为样本的似然函数，而得到的估计值θˆ称为极大似然估计。高斯首次给出了极大似然的思想，这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。

高斯的第二点创新的想法是：他把整个问题的思考模式倒过来，既然千百年来大家都认为算术平均是一个好的估计，那么就直接先承认算术平均就是极大似然估计(换言之，极大似然估计导出的就应该是算术平均)，所以高斯猜测：

误差分布导出的极大似然估计=算术平均值

然后高斯再去寻找相应的误差密度函数f以迎合这一点。即寻找这样的概率分布函数f,使得极大似然估计正好是算术平均。通过应用数学技巧求解这个函数f,高斯证明了所有的概率密度函数中，唯一满足这个性质的就是：

见公式5.

而这恰巧是我们所熟知的正态分布的密度函数，就这样，误差的正态分布就被高斯给推导出来了！但，高斯是如何证明的呢？也就是说，高斯是如何一下子就把上面所述的概率密度函数给找出来的呢？如下图所示（摘自数理统计学简史第127页注2，图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法，而下图最后所说的(11)式就是上面的概率密度函数）：

进一步，高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差ei,有ei~N（0，σ²），则结合高斯的第一个创新方法：极大似然估计及上述的概率密度，(e1,⋯,en)的联合概率分布为

见公式6.

要使得这个概率最大，必须使得 $\sum\nolimits_{i-1}^n$ $e_{i}^2$ 取最小值，这正好就是最小二乘法的要求。

高斯的这项工作对后世的影响极大，它使正态分布同时有了”高斯分布“的名称，不止如此，后世甚至也把最小二乘法的发明权也归功于他，由于他的这一系列突出贡献，人们采取了各种形式纪念他，如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线图片，借此表明在高斯的一切科学贡献中，尤以此”正态分布“的确立对人类文明的进程影响最大。

至此，咱们来总结下：

相比于勒让德1805给出的最小二乘法描述，高斯基于误差正态分布的最小二乘理论显然更高一筹，高斯的工作中既提出了极大似然估计的思想，又解决了误差的概率密度分布的问题，由此我们可以对误差大小的影响进行统计度量了。

但事情就完了么？没有。高斯设定了准则“最大似然估计应该导出优良的算术平均”，并导出了误差服从正态分布，推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服，因为算术平均的优良性当时更多的是一个经验直觉，缺乏严格的理论支持。高斯的推导存在循环论证的味道：因为算术平均是优良的，推出误差必须服从正态分布；反过来，又基于正态分布推导出最小二乘和算术平均，来说明最小二乘法和算术平均的优良性，故其中无论正反论点都必须借助另一方论点作为其出发点，可是算术平均并没有自行成立的理由。

也就是上面说到的高斯的第二点创新的想法“他把整个问题的思考模式倒过来：既然千百年来大家都认为算术平均是一个好的估计，那么就直接先承认算术平均就是极大似然估计(换言之，极大似然估计导出的就应该是算术平均)”存在着隐患，而这一隐患的消除又还得靠咱们的老朋友拉普拉斯解决了。

受高斯启发，拉普拉斯将误差的正态分布理论和中心极限定理联系起来，提出了元误差解释。他指出如果误差可以看成许多微小量的叠加，则根据他的中心极限定理，随机误差理应当有高斯分布(换言之，按中心极限定理来说，正态分布是由大量的但每一个作用较小的因素的作用导致而成)。而20世纪中心极限定理的进一步发展，也给这个解释提供了更多的理论支持。

至此，误差分布曲线的寻找尘埃落定，正态分布在误差分析中确立了自己的地位。在整个正态分布被发现与应用的历史中，棣莫弗、拉普拉斯、高斯各有贡献，拉普拉斯从中心极限定理的角度解释它，高斯把它应用在误差分析中，殊途同归。不过因为高斯在数学家中的名气实在是太大，正态分布的桂冠还是更多的被戴在了高斯的脑门上，目前数学界通行的用语是正态分布、高斯分布，两者并用。

七、正态分布的时间简史

至此，正态分布从首次出现到最终确立，其时间简史为：

1705年，伯努力的著作推测术问世，提出伯努利大数定律；

1730-1733年，棣莫弗从二项分布逼近得到正态密度函数，首次提出中心极限定理；

1780年，拉普拉斯建立中心极限定理的一般形成；

1805年，勒让德发明最小二乘法；

1809年，高斯引入正态误差理论，不但补充了最小二乘法，而且首次导出正态分布；

1811年，拉普拉斯利用中心极限定理论证正态分布；

1837年，海根提出元误差学说，自此之后，逐步正式确立误差服从正态分布。

如上所见，是先有的中心极限定理，而后才有的正态分布(当然，最后拉普拉斯用中心极限定理论证了正态分布)，能了解这些历史，想想，都觉得是一件无比激动的事情。所以，我们切勿以为概率论与数理统计的教材上是先讲的正态分布，而后才讲的中心极限定理，而颠倒原有历史的发明演进过程。

八、回头看

决定正态分布的是中心极限定理

并不是所有随机事件都满足正态分布，想要学会判断什么样的事件满足正态分布，需要了解“中心极限定理”。中心极限定理说，如果一个事件满足下面这些条件，它的分布就是正态分布。

①它是由多个（至少 20 个）随机变量相加的结果；

②这众多的随机变量是互相“独立”的，且每个随机变量的方差都只有有限大；

③起到决定性作用的因素也是多个。

中心极限定理的表达方式有好几种，但核心的数学性质只有一条——大量独立的随机变量相加，无论各个随机变量的分布是怎样的，它们相加的结果必定会趋向于正态分布。换句话说，正态分布是必然产生的。而这个证明源于严格的数学推导，是一定正确的。

正态分布就像一个标准、一个参照系，服从正态分布，可以直接用它分析，不服从正态分布，也可以为人类指明继续探索的方向。如果一个这个随机事件不服从正态分布，那它就一定不满足正态分布背后的中心极限定理。而不满足中心极限定理，我们就能知道，要么是它的影响因素不够多，要么是各种影响因素不相互独立，要么是某种影响因素的影响力太大等，就给我们继续探索指出了思路。

中心极限定理告诉我们，正态分布普遍存在。比如，影响人身高的因素很多，营养、遗传、环境、族裔、性别等都有影响，这些因素的综合效果就是人的身高服从正态分布。

所有的分布，不是正态分布，就是在变成正态分布的路上。信息论领域发现了“熵最大原理”，就是说，在一个孤立系统中，熵总是在不断增大。正态分布就是所有已知均值和方差的分布中，信息熵最大的一种分布。

如果熵不断增长是孤立系统确定的演化方向，那熵的最大化，所以就是孤立系统演化的必然结果。最终任何分布叠加最终都会形成正态分布，所以无论是对数分布还是幂律分布，无论是指数分布还是其他任何分布，只要自身不断演化，不断自己叠加自己，最终也一样会变成正态分布，好像冥冥中自有定数。

工具精神——正态分布

推荐阅读更多精彩内容