数据认知之数据描述

当我们拿到一批规范的数据时,首先要做的是对这批数据有个初步的了解。这个过程不仅是了解数据的过程,也是数据向我们描述的过程,一不小心就会被它花了眼。

一般描述指标

  • 算数平均值
    拿到一批数据,急于了解这批数据的情况,很多人是会选择去看平均值(准确说是算数平均值)。比如一个月的日gmv,看整体情况会选择用日均值gmv代替整体情况。

举个栗子:3月的日均值gmv是10万,2月的日均值gmv是8万,从均值的角度看整体就是在上升的。

  • 中位数
    中位数就是排序在最中间的数字。举例 将某日11名用户的购买金额进行排序,排序在6的用户的购买金额就是这11个人的购买金额中位数。如果排序是偶数个,就取排序最中间的两个数字的算数平均值作为中位数。中位数用在什么场景下呢?

举个栗子:要看11个用户的整体购买均值,前10个用户的金额都分布在1000~2000之间,低11个用户的金额是20000,这个时候使用算数平均值的话整体的水平都被第11个人拉高了 跑偏了,算出来的算数平均值会在4000左右,这样就因为一个异常值而偏离了大部分的数据。

所以使用中位数主要避免异常值的影响,如果数据差异较大时可以选择中位数作为参考。

  • 众数
    众数就是出现最多的数字。
  • 加权平均值
    加权平均值主要用在做绩效衡量或者综合评估的时候。比如在互联网金融行业里有个指标就是加权平均后过的,年化投资金额
    年化金额=金额*期限/12,就是涉及一个 不同的数值在结果中占的权重不同,而最后的结果是将权重求和后的结果。

数据稳定性

一般用 方差来衡量数据的稳定性,也就数据的波动情况。

举个栗子:2月的日均值gmv是10000,3月的日均值gmv也是1000。如果看到整体均值是一致的,就可以说2月和3月的业务情况没有变化吗?

很显然,上图中均值都是一致的,但是波动差异很大,这个时候就要重点关注3月的变化了。

在这个地方要强化一个认知,不仅指标的数值是需要关注的重点,指标是否稳定也是需要关注的点。既要关注指标结果还要关注的指标的波动变化。

再举个栗子:两个射击运动员A和B,A的训练成绩的算数平均值是 8,方差是1,B的训练成绩的算数平均值是9,方差是2。这个时候应该派谁去参加比赛呢?

这个时候要考虑的是应用的场景,如果参赛的其他队员的水平都低于本队,就派A去参加。虽然A的均值没有B高,但是A发挥稳定,成绩不会有较大的波动,再加上其他队的水平在本队之下,参赛的胜算会比较大。如果本队的水平一般,就派B去,虽然B的方差较大成绩不稳定,但是B的均值较高,派B去虽然可能成绩会波动,但是冲击高分的成绩也比较大。

数据描述还属于数据认知的初步阶段,在Execl中可以使用 描述统计 功能来做初步的描述。

描述统计界面.png
描述统计结果.png

我的tableau public:yangliang的tableau public主页

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 基本概念 统计是对数据进行收集、分析、展示和解读的科学和艺术,这句话听起来很高深,但其实也没必要非要把统计想得过于...
    拓季阅读 11,044评论 0 6
  • 博客上看到一篇优秀的翻译文章。文章地址:http://blog.csdn.net/heyongluoyao8/ar...
    _CelesteHuang_阅读 5,407评论 0 25
  • 读《人性的弱点》,让我受益匪浅。在这样深夜,读这样的书,像是在品尝一场美味的人生盛宴,自得其乐。要将这种感觉说出来...
    艾格白修斯阅读 417评论 0 3
  • 在电影院看《从你的全世界路过》,断断续续哭了很久。 我记得上次从电影院哭着出来时候应该是2011年看失恋33天。 ...
    樱桃_阅读 303评论 0 0
  • 刚刚孕上的我终于可以体会到母亲的角色可以彻底的让一个女人从天真浪漫,有点自我和小任性的少女,变成一个自主并且保护欲...
    cyrensw阅读 396评论 0 1