高斯分布(正太分布)
对这个问题的研究,可以写好多本书,而且是还没有写出来,人类还不知道那种 :)需要修正一下你的看法,自然界最多的不是正态(高斯)分布,而是长尾(幂律等)分布。你可以搜索一下heavy tail, zipf law之类的关键词。事实上,高斯分布更常见于人造体,而非自然界。原因为啥,我下面讲。高斯分布怎么来的,很简单。只要你观察的系统里,各种对象之间关联很弱,那么他们的总和平均表现,根据中心极限定律,就是高斯或者近高斯的。你看我们人造的东西,很多都是模块化的,比如汽车轮船飞机,桌子椅子板凳,等等。我们人类造东西,都是“搭”出来的,一个模块和另一个模块之间关联很弱,坏了一个模块换掉就好。所以人造系统,其表现,包括性能啊,噪声啊,稳定度啊,都基于高斯分布。但自然界呢,假如有个造物主,它造东西跟人类的思路就很不一样。它手里的作品是“生长”出来的。比如我们人,从一个受精卵发育而来,各个部分强关联,受精卵上一点缺陷,会反映到整个人体的巨大影响。这和桌子有本质区别,就算桌子原始材料有个洞,也不可能造出来桌面和桌腿都很多洞。“生长”这个过程到底服从什么本质的数学规律,我们人类还不确切知道。从2000年以后,学界的研究集中于通过随机游动,扩散这样的动力学行为来对“生长”出来的系统(复杂系统)尝试寻找类似于模块系统的中心极限定律的总体规律。有一些进展,但是还没有特别令人信服的突破性结论。
正态分布的的普遍性可以中心极限定理得到。直白地说,如果一个指标受到若干独立的因素的共同影响,且每个因素不能产生支配性的影响(Lindeberg 条件),那么这个指标就服从中心极限定理,收敛到正态分布,这就是林德伯格-费勒中心极限定理的意思。举个例子,学生的成绩(指标)受许许多多因素影响诸如状态、能力、心情等等充分多的因素影响,成绩的形成是许多因素影响的加总。这些因素没有一个能够支配性地影响成绩,那么即使这些因素各自都不是正态分布的,它们所形成的成绩也是正态分布的。
上面来自知乎