在实际生活当中,我们最常见的是正态分布和拉普拉斯分布,这两个分布反映了现实生活当中隐藏在数据背后的“势”。了解这些数据的趋势,才可以让你更好地了解实际的工作和生活本身。
正态分布
我们先来看正态分布。正态分布就是你在课本里曾经学过的那个两头低、中间高然后左右轴对称的钟形曲线。
学术上是这么来定义正态分布的:“如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布”。
大数定律研究的是随机变量序列依概率收敛到其均值的算术平均,说白了就是为了说明频率在概率附近摇摆,也为我们将频率当作概率提供了依据。
而中心极限定理要求的是独立随机样本,在中心极限定理下,随着样本数量趋于无穷大,独立随机样本和独立随机样本和的分布会越来越像正态分布。
还是用抛骰子的例子来给你解释一下中心极限定理。比如你抛 6 次骰子发现求和是 18,你又抛 6 次发现加起来是 20,你又抛了 6 次,这次发现加起来是 25。如果你抛的次数足够多,你把 18、20、25 等这些数据画出一个图来,这个图是符合正态分布的。
所以大数定律和中心极限定理说的不是一个维度的事情。大数定律算的是概率,中心极限定理算的是样本和的分布。
拉普拉斯分布
还记得我们这节课开头提到的房价这件事吗?理论上房价应该和人的身高一样,在某一个地区有一个均价,并且整体的房价和身高是一样呈正态分布。但为什么在某一个区域可能就隔了一条街,房价却翻了好几倍,而且数量也不少?这不符合刚刚说的中心极限定理呀。
关于这个问题,我的答案是:我们的房价其实和我们的身高是不一样的,它不是我们想象当中的正态分布,而是我下面提到的拉普拉斯分布。
拉普拉斯分布就和上图一样,是一个“凸”字形的塔尖儿曲线,从左到右,斜率先缓慢增大再快速增大,到达最高点后变为负值继续先快速减小,最后再缓慢地减小,所以有点像“往里边凹陷的金字塔”
而全国的城市房价分布、一个城市当中的小区房价分布现在也是符合拉普拉斯分布的。因为在信息透明和市场竞争的情况下,工资、房价、股票都会符合一个特点:越塔尖的个体越具有资源吸附能力。那么在整体资源恒定的情况下,这已经不是一个简单的符合随机分布的市场了,简单来讲,“大势”变了。
所以当你在做数据分析的时候,一定得先考虑一下,原有的数据分布模型是否还适用于现有的市场情况?
准确把握住数据分布这个大势,我们才能够做出更为正确的决策。
正态分布和拉普拉斯分布,这是我们在现实生活当中最常用到的两个分布。希望这两个分布能够帮助你分析工作生活里数据背后的“势”,做好对生活、工作的决策。
将来无论在什么场景下做数据分析,数据的分布应该能贴合地描述我们社会上的“大势”,所以当你面临生活中的决策时,而不能就数据套数据、为了算法而算法,领域背后的知识对于我们更加重要。
就像今天我给你讲的正态分布和拉普拉斯分布的例子一样,现如今我们的生活中,有的事物符合正态分布,有的事物符合拉普拉斯分布。就比如说我们在买房的时候,没有判断好我们所处城市的房价到底是正态分布还是拉普拉斯分布,很有可能会导致你错误的投资决策。
更进一步来说,这两个数据分布其实给我们的工作生活也有一个大的启示,那就是为什么会有这样一句话的流行:“Work Hard, Play Hard”,因为这句话背后的含义其实是指当你要获得更多的自由的时候,你也要付出同等的甚至更多的自律(控制自己既能使劲玩也能使劲工作)。当今社会的人才分布是呈拉普拉斯分布的,我们要争取做顶尖,这样才会有更多的资源和机会。
此文章为11月Day21学习笔记,内容来源于极客时间《数据分析思维课》,强烈推荐该课