当我们拿到一批规范的数据时,首先要做的是对这批数据有个初步的了解。这个过程不仅是了解数据的过程,也是数据向我们描述的过程,一不小心就会被它花了眼。
一般描述指标
- 算数平均值
拿到一批数据,急于了解这批数据的情况,很多人是会选择去看平均值(准确说是算数平均值)。比如一个月的日gmv,看整体情况会选择用日均值gmv代替整体情况。
举个栗子:3月的日均值gmv是10万,2月的日均值gmv是8万,从均值的角度看整体就是在上升的。
- 中位数
中位数就是排序在最中间的数字。举例 将某日11名用户的购买金额进行排序,排序在6的用户的购买金额就是这11个人的购买金额中位数。如果排序是偶数个,就取排序最中间的两个数字的算数平均值作为中位数。中位数用在什么场景下呢?
举个栗子:要看11个用户的整体购买均值,前10个用户的金额都分布在1000~2000之间,低11个用户的金额是20000,这个时候使用算数平均值的话整体的水平都被第11个人拉高了 跑偏了,算出来的算数平均值会在4000左右,这样就因为一个异常值而偏离了大部分的数据。
所以使用中位数主要避免异常值的影响,如果数据差异较大时可以选择中位数作为参考。
- 众数
众数就是出现最多的数字。 - 加权平均值
加权平均值主要用在做绩效衡量或者综合评估的时候。比如在互联网金融行业里有个指标就是加权平均后过的,年化投资金额。
年化金额=金额*期限/12,就是涉及一个 不同的数值在结果中占的权重不同,而最后的结果是将权重求和后的结果。
数据稳定性
一般用 方差来衡量数据的稳定性,也就数据的波动情况。
举个栗子:2月的日均值gmv是10000,3月的日均值gmv也是1000。如果看到整体均值是一致的,就可以说2月和3月的业务情况没有变化吗?
很显然,上图中均值都是一致的,但是波动差异很大,这个时候就要重点关注3月的变化了。
在这个地方要强化一个认知,不仅指标的数值是需要关注的重点,指标是否稳定也是需要关注的点。既要关注指标结果还要关注的指标的波动变化。
再举个栗子:两个射击运动员A和B,A的训练成绩的算数平均值是 8,方差是1,B的训练成绩的算数平均值是9,方差是2。这个时候应该派谁去参加比赛呢?
这个时候要考虑的是应用的场景,如果参赛的其他队员的水平都低于本队,就派A去参加。虽然A的均值没有B高,但是A发挥稳定,成绩不会有较大的波动,再加上其他队的水平在本队之下,参赛的胜算会比较大。如果本队的水平一般,就派B去,虽然B的方差较大成绩不稳定,但是B的均值较高,派B去虽然可能成绩会波动,但是冲击高分的成绩也比较大。
数据描述还属于数据认知的初步阶段,在Execl中可以使用 描述统计 功能来做初步的描述。
我的tableau public:yangliang的tableau public主页