数据,分为两种类型,一种是离散型数据,一种是连续型数据。
- 离散型数据:指某些既定的值。比如投掷一个骰子,有1、2、3、4、5、6这六个结果。
- 连续型数据:指一个范围内任何值,无法一一列举。比如我们的身高,在人体身高极限下,任何一个身高都是可能的。
既然提到了连续型数据,就不得不说说统计学中最重要的概率分布类型之一——正态分布。
正态分布:也称为高斯分布,它是自然科学与行为科学中定量现象的一个方便模型。曲线对称,中央部位的概率密度最大,越是偏离均值,概率密度越小。均值与中位数均位于中央,因此具有最大概率密度。
因为它的曲线呈现一个倒钟型,所以也称之为钟形曲线。
正态分布示例.png
在这张图中,μ表示均值, σ表示标准差,它的平方自然是方差。当μ=0,=1的时候,代表标准正态分布,也就是图中红色的这条钟形曲线。
发现了么?在正态分布曲线中,μ指出了曲线的中央位置,指出了数据的分散性:
越大,曲线越扁平,越宽。反之,
越小,曲线越陡,越窄。
但有一点得注意:无论把图形画多大,概率密度永远不会等于0。换句话说,即使我们以为再不可能发生的事情,也存在发生的可能性。只是这种可能无限趋近于0,而不等于0。
而这个曲线我们在生活中要怎么用呢?
GE公司的传奇CEO杰克·韦尔奇就曾用一个正态分布曲线——活力曲线理论,挽救了死气沉沉的公司。
韦尔奇的活力曲线.jpg
在上面这个曲线中,员工被分为了三类:
- 最左边的20%:属于公司最优秀的员工,不仅有着很强的工作热情,而且能完美解决既定的工作任务。公司给予更多奖励。
- 中间的70%:属于公司大部分员工。即他们有着较强的工作热情,能按时按量的完成工作指标。
- 最右边的10%:属于公司中最差的,约占10%。这类员工,要么自己想办法提升自己,要么转岗,要么就被淘汰。
那么问题来了,我们要怎样才能根据既有连续型数据求出它的正态分布概率呢?别急,我们明天再聊。
相关阅读:
《方差,计算数据变异性的标尺》
《平均数与中位数》