前篇文章《浅谈数据分析》提到 “数据分析怎么做” 这个部分时,我们介绍了描述性统计分析和数据挖掘算法两种分析策略。这些都是从方法论层面去分析数据,去挖掘数据价值。
当我们面对海量数据时,我们根据不同业务形态采用不同方式处理、分析数据,又都属于战术层面的执行。其实,还有一个上层执行动作也是我们需要去做的。
这就是数据分析思维的建立,有了一定的分析思维,我们就比较容易做到以不变应万变。
具体来说,有三类常见的数据分析思维:
对比思维
当我们网购时,看中了一款衣服。如果这款衣服是非标品,品牌辨识度不是那么强的话,我们可能会在淘宝、天猫、京东、拼多多...都看一下,对比下价格,对吧。
还比如,我们进菜市场买菜,大妈们可能非常有经验,什么白菜、葱、肉之类的价格哪怕涨了 1 毛钱,他们都能迅速感知到。
再比如,最近高考刚刚结束。父母们都很关心自家孩子的高考分数,等成绩出来了,孩子告诉妈妈我考了 550 分。妈妈可能立马就联想到这个分数是个什么段位的分数,能不能上重本啊?不能上重本,本科能不能上啊?
这些我们生活当中非常熟悉的场景,其实大家都在无形中对数据运用了对比,只不过由于这些场景的数据我们太熟悉了,运用对比的时候甚至是下意识的。
对数据进行对比在我们的生活中是无处不在的,反过来想,如果不对数据进行对比,很多时候这些数据压根都是没有实际意义的。
举个例子,当有人告诉我们他年入 100 万。这时候,可能一些人会 “哇” 的叫出声来,发出 “哇” 就代表已经对 100 万这个数据做了对比,如果你年入 200 万,可能就不会 “哇” ,不发出 “哇” 同样也已经对 100 万这个数据做了对比。
而没有对比的情况下呢,我们就不会有任何情绪上的变化,就只是知道那哥们儿年入 100 万这个事实而已,因为我们并不知道 100 万这个收入数字到底是个什么样的存在。
这个时候,100 万这个数据就没啥意义了。
分解思维
求职市场上,有两个比较常见的需要通过分解思维去解答的问题:煎饼摊收入估算和地铁运量估算问题。
煎饼摊收入估算
假如我们开了个煎饼摊,我们可能首先就要想清楚自己的利润该怎么计算的问题了。顺便提一下,不论是大企业的 CEO,还是早餐铺的老板娘,他们很重要的能力之一就是要会算账,算账都算不明白的话,咱就做点别的吧。关于煎饼摊的月收入估算,有一个粗略的计算公式:
煎饼摊月利润 = 每天销售量 * 每套煎饼售价 * 每月出勤天数 - 每月运营店铺的总成本
根据这个公式,我们做个假设。比如,我们一天能卖 200 套煎饼,每套煎饼 5 块钱,那么一天下来,我们一天的销售额就是 200 * 5 = 1000 元。
这是一天的真题销售情况,我们还可以进一步细分,看看每小时的销售情况。我们想一下就知道:
每天销售煎饼的数量 = 每小时销售数量 * 每天工作时长
我们再做一下假设,比如我们每天的工作时间是 8:00 - 19:00。那么在这 11 个小时的工作时间当中,可能早上的 2 小时生意最好,每小时卖出去了 45 套;18:00 - 19:00 这个时间段是的生意也比较好,我们也卖出去了 45 套。中间的 8 小时,生意一般般,每个小时就卖出去了 5 套。
那么,这么算下来,我们一天就卖出去了 45 * 3 + 8 * 5 = 175(套)煎饼。然后假设我们很勤奋,365 天风雨无阻卖煎饼,也就是说我们每个月都完整出勤了。那么一个月按 30 天简单计算的话,每个月能销售煎饼 175 * 30 = 5250 套。
假设每套煎饼还是 5 块,那么每个月的销售额就是 5250 * 5 = 26250 元,然后再扣除一个月包括人工、原料、租金的总成本算 9000 元,那么一个月下来的利润就是 17250 元。
还能细分么?
可以。
如果我们的每个订单都录入系统,换句话说,假设我们能够实时监控到店铺的每个订单,我们是可以做到对 5 分钟级的数据进行分析的。
这个分析大家感兴趣可以自己造点数据用 excel 分析一下,我能预想到,一旦对 5 分钟级数据进行监控分析的话,得出的分析结论很可能会反推出我们在供应时需要做出怎么样的调整。
地铁运量估算
需要注意的是,面试时给出这样的题目的意图并不是要求我们准确计算出来这个城市每天的地铁运量到底是多少,因为在实际工作中,google 一下就知道了。面试出这样的题目更关注的是我们的解题思路是否清晰。
假设我们要计算深圳每天的地铁运量,我们可以从供给侧着手考虑,在题目没有明确要求的情况下,选择从供给侧着手能够简化问题。
要计算深圳一天的地铁运量,我们可以想到一个简单的公式:
深圳地铁每日运量 = 地铁数量 * 每条地铁的承载人数
首先,我们对地铁数量进行分解,就能得到:
地铁数量 = 地铁线数 * 每条地铁线同时运行的地铁数量 * 每趟地铁每天运行次数
然后,我们再对地铁承载人数进行拆分,就能得到:
单条地铁承载人数 = 单条地铁的车厢数 * 每节车厢的核载人数 * 上座率
最后,我们将分解后的公式一组合,就能得到这样一个公式:
深圳地铁每日运量 = 地铁线数 * 每条地铁线同时运行的地铁数量 * 每趟地铁每天运行次数 * 单条地铁的车厢数 * 每节车厢的核载人数 * 上座率
我们根据经验给每个因子赋值一下就能得到结果了,比如深圳的情况就可能是:
12 * 10 * 10 * 35 * 40 * 100% = 1680000
值得提一下的是,深圳这种城市的上座率几乎都是超过 100% 的,特别是早高峰那段,相信经历过的人都不想去回忆。
溯源思维
关于溯源思维,在数据领域是经常需要用到的。
我们知道,在处理海量数据时,经常会出现一些数据上的问题。比如,我们某天发现某个指标表现异常了,这个时候,我们通估计简单的思考发现,业务上最近没啥动作,数据怎么波动这么大呢?
这个时候,我下意识就会去看数据明细,看看每条数据生成的整个链路到底哪里出现了问题,从我个人经验来看,一般这样去找问题,绝大部分数据问题都能够找到原因。
从数据本身来看,一条条的数据明细就是指标的 “本质”。
再比如,我们听马斯克讲到自己当年做特斯拉,为了解决电池高成本的问题,也是从电池的本质组成部分,铁、镍、铝这些材料上找降低成本的办法,成功解决了问题。当然,后来他自己总结是用物理学的第一性原理去看待这个问题。
还比如,王兴用比特(信息量的最小单位)去看待互联网...
回过头来看,这些看待问题的角度和做法都是从事物的本质出发去思考的结果。
好了,关于数据分析中常见的三种分析思维,我们就聊到这儿了。