缘起:李笑来老师在写作课上提到,统计学这门大学的必修课,应该学会并在日常生活中能够运用。据说能够在生活中运用统计学的人百不存一。为了避免自己也继续在生活中做那么一个傻瓜,因此我打算学习下统计学,找下书籍,找下材料,想方设法找到统计学如何在生活中使用的例子,通过这些例子,或者方法,指导自己走上运用统计学的道路。
既然要学习统计学,那么第一步,肯定要先学习正态分布,因为正态分布应该是在统计学里面最重要的概念了。
那么什么是正态分布呢?也许这里直接告诉大家一个定义,一个公式,直接会让人望而却步了吧,因此我打算用一个小故事来告诉大家什么是正态分布。
由于战争,德国有一个时期物资特别紧缺,对面包实行配给制:政府把面粉发给指定的面包房,面包师傅烤好了面包再发给居民。有一个统计学家,怀疑他所在区域的面包师傅私扣面粉,于是就天天称自己的面包。几个月以后,他去找面包师傅,说:“政府规定配给的面包是400克,因为模具和其他因素,你做的面包可能是398、399克,也可能是401、402克,但是按照统计学的正态分布原理,这么多天的面包重量平均应该等于400克,可是你给我的面包平均重量是398克。我有理由怀疑是你使用较小的模具,私吞了面粉。”面包师傅承认确实私吞了面粉,并再三道歉保证马上更换正常的模具。又过了几个月,统计学家又去找这个面包师傅,说:“虽然这几个月你给我的面包都在400克以上,但是这可能是因为你没有私吞面粉,也可能是因为你从面包里特意挑大的给我。同样根据正态分布原理,这么多天不可能没有低于400克的面包,所以我认为你只是特意给了我比较大的面包,而不是更换了正常的模具。我会立刻要求政府检查你的模具。”面包师傅只好当众认错道歉,接受处罚。
通过这个故事,我像大家应该初步懂了正态分布是什么了吧?接下来就到了枯燥的内容了,不过也不用怕,我会尝试着说得简单一些的。
正态分布,也可以解释成“常态分布”,简单的解释,就是大量独立同分布的随机事件,整体上服从正态分布。
而正态分布,就是如下图中间大,两边小的分布情况。
举个例子吧,比如中国人2016年的平均身高是167cm,这个167就相当于正态分布中的μ,也就是上图中的的均数,那么在现实中,意味着167cm的人是最多的,然后越往两边,这种身高的人就开始变小。就好比200cm以上的人,在中国人里面是占了很少的比例的,这个就是正态分布。
一个班或者一个年级的学生,考试成绩有高有低,高的考到了90多甚至100,低的只考了20、30分。这看起来差异太大,参差不齐。但实际上,这个班的成绩一定是符合正态分布的!高分段和低分段占少数,而大部分学生的成绩都集中在中间分数段,也就是大部分学生的成绩都集中在平均分(比如75)左右,并且高于平均分的分布和低于平均分的分布应当是基本一致的(对称)。大量独立的学生,他们整体的成绩服从正态分布。
那么说了正态分布的定义,接下来扒一扒正态分布在生活中的应用。
比如,当年我读高中的时候,各个高中都喜欢做这么一件事情,就是将成绩最好的学生,集中起来,组成一个或者两个班级,也就是常说的重点班,然后向重点班倾斜各种资源,试图通过这种方式提高整体的成绩。而我在的高中,却没有做这种事情,他们并没有划分所谓的重点班,而是每个班级的学生都比较随机的组成。高考以后,结果谁胜谁负?结果事实证明我所在的高中在高考胜出了,上清华北大,上一本线的,均超过了其他学校?
为什么?就是因为我所在的高中考虑到了正态分布的客观规律。因为其他高中就算将成绩最好的学生集中起来在一个班,也还是会出现正态分布的现象,也就是拔尖的永远是那么几位,差的也会有这么几位,结果就是导致整体发展不平衡,进而影响了个体发展。而我所在的高中,并没有强制将成绩好的学生集中起来,放到一个班级,而是随机组成班级,而这些班级里面总会有几个成绩拔尖的学生,而这些拔尖的学生集中起来的时候,是超过那些重点班的学生的。
(未完待续)