简述
简述统计学基础概念,均值,异常值,中位数,众数,方差,四分位数,标准分的概念。以及应用和为什么会有这么多概念。(我都不知道自己在干啥,为啥要从头开始,我不是小学或者初中生(ಥ_ಥ))
故事从均值开始
均值是数据中比较有代表性的数值,也是汇总数据常用的方式。离散的点均值计算方法为,把所有点的值相加,并除以点的个数:一共是n个数,均值等于:
有了均值之后人们在应用中发现均值还不能完全的描述数据。例如我想买一个适合青年人玩儿的游戏,我看了3款游戏的均值,一款均值15,一款25,一款35。然后我买了25的,发现被均值骗了,里面都是小学生带着老爷爷在玩儿。为什么会出现这种情况,我们来看看数据:
13,12,12,12,12,15,60,64 这是我挑选的游戏的玩家的年龄。一共8个人,均值可以计算 但是实际上在这款游戏里根本没有与我年龄相近的人。因为这里面存在异常值。60,64 就是异常值。异常值就是在数据中存在的极值,这些极值会使数据偏斜,导致均值发生变化而缺失均值的代表性。
中位数的引入
为了避免异常值的影响,在均值的基础上,我们引入了中位数,中位数就是处于中间位置的数。 求法如下:
1.先把离散的数据都从小到大排序。
2.如果有n个数,且n为奇数, 中位数的位置为:
3.如果有n个数,且n为偶数,中位数为两个中间数a,b的加和除以2. 即(a+b)/2
a和b的计算方法为:
然后来计算刚刚那组数据的中位数,先排序:
一共8个数,n = 8,为偶数,求出两个中间数a,b。
所以两个中间数的位置是 4和5,从第一个数开始数,第四个数是12,第五个数是13
所以中位数为 :
从以上结果可以看出中位数,帮我们加强了数据的准确度。如果当时知道均值是25 中位数是12.5 我绝对不会去选择这个游戏。
众数的引入
我继续买游戏,这次我不光看均值,还看中位数。我发现了一款游戏,均值20,中位数也是20,于是我加入了,然后发现被均值和中位数一起骗了。来看看这次的数据:
通过计算可以得出,均值和中位数确实是20,但是数据里面并没有20岁的人。为了避免这种情况发生,就有了众数。众数就是频数最大的数值,一般取一个或两个来检验数据。在这组数据中,7出现了3次(7的频数为3,后面以此类推),8出现1次,32出现1次,33出现3次,所以众数为7和33。
这组数据的均值是20,中位数是20,众数是7和33 说明这组数据大多数都是由小孩和家长组成,如果我提前知道的话,也就不会去买这款游戏了。另外,我们举的例子是典型的双峰数据,数据的密度图如下:
P.S:
当原本数据都加上数值X时,均值,众数,中位数都会变,也都加上X,得到新的均值,众数,中位数。当原本数据都增加X%的时候,均值,众数,中位数也都会变,也都增加X%,得到新的均值,众数,中位数。