不知分布=不懂数据,聊聊数据分布中的小正态

在日常生活中,我们经常遇到这种情况,发现周围很多人都是高不成低不就,身边人的人里面没有几个特别出色的,也没有几个特别差劲的,都是在“差不多”的状态中游荡。其实这种情况(数据分布)就近乎于今天我要讲的正态分布。

讲正态分布之前首先提几个统计学常识:

平均数:这个大家接触的很多,就是一堆数据加起来再除以数据个数

众数:1,2,3,3,3,3,3,4,5,5   在这组数据里面出现频率最多的数是3,也就是众数,大家经常听起过 “少数服从多数” 这句话,众数就是一群数据里面出现频率最高的那个数

中位数:1,2,3,3,3   这组数里面“2”正好是处在最中间的位置,它是中位数;1,2,3,3,5,7,9 这组数据里面中位数是3+5/2=4。说到这里你应该能发现中位数的求法了:先把数据从大到小列出来,不管一个数据出现过几次,都按数据大小按程度排列,如果数据总个数是奇数,那就找大小最中间的那个数据,如果是偶数,那就找大小处于中间的两个数,然后相加除以2

这三个比较有个性的数据都可以代表自己所处的样本,但是它们三个有好有坏:

平均数:平均数的大小是由所有数据的大小决定的,它最能代表一组数据的情况,所以也最常用,但是平均数也有一大坏处:比如我和我这个楼的人还有比尔盖茨的平均工资每月过亿。。。它非常喜欢叛变,有一个程度非常极端的数据出现它就不靠谱了。

众数:众数代表大多样本的情况,看起来还算挺靠谱的,可是:1,2,3,4,4,5,6。这组数据众数是4,可是4出现的频率就比其它数据多一次而已!外加众数忽略了很多程度比较极端的数值,这未必是好的,就像分析一下某学校各个班的学习成绩,一个班大部分人都考了70分,但有一个100分是学年第一,如果取众数是70,这个老师太差劲了,大部分人都才考70,但是忽略了这个老师教出了学年第一。

中位数:有人可能会说平均数这么不靠谱那中位数总还可以吧,但是你想想中位数最多是用两个数据求出来的,一组数据里面如果量很大,就取两个数据求中位数做代表,那其它数据怎么办?

其实,有一种情况中位数=众数=平均数。用不着纠结谁才是课代表了

这种情况就是正态分布,先看一下正态分布长什么样子:

图片从百度扒的

横轴代表数据的大小,纵轴代表每个数据的存在数量。最中间那条虚线是平均数的位置,平均数用希腊字母μ(读miu四声)表示。

正态分布的基本特点:

平均数最多,也就是平均数=众数

平均数的程度是整组数据中的中间位置,也就是平均数=中位数

总结起来就是平均数=中位数=众数

这意味着什么呢?想象一下各种调查数据,意味着大多数人都处于高不成,低不就的平均水平,而且没人被极端数值影响被平均了。比如调查员工满意度,大多数人都是对公司的印象不好也不坏,那岂不是很好???

但是有的时候并不是这样,正态分布崩溃的时候会出现这两种情况:

MBA智库里扒的图

MBA智库里扒的图

一个是正偏态分布:中位数是不变的(因为最多两个数据就能决定中位数的大小),就在中间,但是众数小于中位数了,平均数刚才说过因为受极端值这个妖艳贱货的影响大于平均数。(众数<中位数<平均数)

一个是负偏态分布:中位数不变在中间,众数比中位数大,平均数这次受程度极端低的妖艳贱货影响变得比中位数小(平均数<中位数<众数)

正态分布广泛应用于所有需要统计的领域,比如医学实验,心理学实验也是基于此而进行的,如果没有正态分布被高斯发现,现代实验,工业等一系列的东西就根本不存在。可以说是这个分布推动了人类进步。正态分布是最好的分布,是因为它代表了一种和谐的状态,可以这么说:天地人和则正态分布。

那么从正态分布中我们又能领悟到什么呢?

大多数人都是在中位数附近徘徊,很少有人非常优秀,所以为了成为一个出色甚至伟大的人,你要逃离中位数附近,比你身边大多数的人要努力,你才能做正态分布里面靠右侧的数据。而不是像大多数人一样累了就休息,一会停,一会走。

以上内容除了图片均为原创,虽说是原创,但是你在任何一本统计学书籍里面也能看到换种讲法但是本质一样的内容,但是我这篇文章可不是到这里就结束了,正态分布其实还有另外一种表达形式,而且换个角度看,也会有不同的发现。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。