我始终相信很多复杂的东西的背后都是由几个简单的东西构成的,数据分析也是如此。平时我们看到的那些指标、那些报表其实分解出来就两个基本概念:维度和指标,在这之前我们先来了解下数据。
零、明细数据
要明白我们进行数据分析的基础是要有数据,这些未经加工的一条一条的数据我们称之为明细数据,比如某个用户某个时间点访问了某个页面的行为数据。
这些明细数据可以进行适当的扩展,比如使用用户ID就可以查出这个用户的其他信息,让这些这些明细数据多出很多我们需要的属性。
一、基本概念:维度&指标
维度:用于进行分组的属性比如在分析用户活跃度的时候,需要分不同地区、不同用户年龄段、不同操作系统等进行分析,那么地区、年龄段、操作系统这些就称为维度。
指标:计算得到的数字。就是你抽象出来反映一定事实的简单数字,比如活跃度、留存率、转化率等。可以看看这篇介绍指标的文章
二、维度
2.1 维度的值是离散且有限
维度常常只有少量的离散的取值,比如用户所在的地区(我们粒度精确到省级)取值范围就中国34个省级行政区,有些连续的值比如身高我们也可以通过分段把它变成有限个离散的区间。
2.2 维度的粒度:上卷&下钻
刚我们提到的地区,有时候我们需要有个粒度的概念,比如地区我们可以选择精确到省进行分析,也可以精确到市级地区进行更细粒度的分析。像这种粒度变小或变大的操作我们叫做下钻和上卷。日期就是我们非常典型的例子,我们可以选择以年为粒度查看每年的用户增长情况,也可以下钻到天为粒度看每天的变化情况,或再上卷到每月。其实如果你把所有维度的粒度都到最细其实就是明细数据了。
2.3 维度之间的关系
很多维度之间其实是有很多联系的,比如用户所在的地区、用户的性别、用户的年龄段、用户的注册日期等这些都跟用户相关,一旦确定了用户的id这些维度的值也就确定了,我们可以统称为用户的维度。
三、指标
比如你想关心产品做得好不好,想知道用户用了之后还想用的意愿有多少,通过留存率这样一个简单的数值我们就可以监控到。
指标就是这样一个数字让你可以监控你所关心的事情,通常有明确的计算方法,比如注册用户数:用户id的计数;活跃用户数:有产生行为的用户id计数;用户平均年龄:所有用户年龄总和除以用户数
指标之间也有很多关系,比如可以通过其他的几个指标综合计算出一个新的指标,这就又是一潭深水了;比如你发现有两个指标形影相随趋势相同;
四、报表
一般的报表其实都长这样
- 横轴:维度;最常见的就是时间,也可以是一个维度组让你可以在不同粒度中上卷下钻。
- 纵轴:指标;就是你想监控的东西,也可以将多个指标放在一个图上形成多条线进行对比分析,也可以一个指标按照某些维度分为多条线进行对比分析。
- 筛选器:一般是维度,比如你只看上海用户的活跃度在时间维度的分布。
当然还有各种千奇百怪的报表,但是万贱归总,逃不脱维度和指标。
五、总结
所以当你想做个报表之前想清楚你有什么明细数据,你的维度有哪些,指标是什么,哪些维度用来做分组,哪些维度用来做筛选。