老板:这个功能上线,效果怎么变差了,分析下什么原因?
PM 内心:MMP,难道不是自然波动吗?
工作中经常需要数据分析,但有时原因真的很难找。或者就算觉得找到了,也难以用数据证明。有时找到了方向,取了一大堆数,算了半天,发现缺少某个维度的数据,又要重新求着数据部门要数据。找到了想要的数据,又恨自己数到用时EXCEL技能少。总之,一到数据分析要耗费不少时间。
不过没关系,今天3个步骤教大家高效的数据分析方法。其实,EXCEL 这些工具技巧真的没那么重要,数据分析困难和费时主要还是提炼思路的部分。这个部分想清楚了,自然就高效了。
步骤一:抛开预设结论,穷尽维度搜集数据
通常产品上线一周,会有一些关于上线效果的推测的结论。
但在这一步,不要直接根据假设取数,而要搜集产品维度相关的所有数据。
我们往往会先依据预设假设去要数据。而一旦从数据中发现其他问题,又要再次要数据,从头分析,浪费时间。
举个具体的例子。
假设有个平台为用户提供接送机服务。有X和Y两个服务供应商在服务。这个平台有DE2个渠道售卖这个服务。D渠道又分为D1、D2 、D3 3个子渠道,现在在D1、D2上下线了X供应商。一周后数据周报显示D1、D2的订单完成单减少。需要PM给出解释。
这里先解释下,接送机服务用户下单后,上车到达机场或目的地算订单完成。中间用户没有坐车,比如用户取消,或者没有司机接单导致订单取消,都算这个订单没有完成。
初始推测的假设是D1D2下线X供应商,导致Y供应商下单增长,但是没有那么多司机接单,因而完成单减少。
那这个时候取数不能只去看D1D2下线前后订单数、完成单数的变化。而是应该把D3、整个D渠道、E渠道和平台渠道在前后的订单数、完成单数都取一遍。万一D3完成单也减少了呢,可能就是渠道的原因。
取数范围关注:
- 变化如何:比较D1D2的变化趋势、变化比例
- 有变化和无变化的比较:D1D2 VS D3, D VS E
取数逻辑关注
- Y下单增长的渠道,完成单如何变化
- Y下单未增长甚至下降的渠道,完成单如何变化
- Y下单增长量大和小的渠道,完成单如何变化
步骤二:从初始数据中建立一些假设
关键词:假设
数据分析的核心是建立建设、验证假设。所以其实不需要多么高深的数学或统计学知识,只要有最基本的假设检验的概念就可以了。
在步骤一中,你可能找到一些蛛丝马迹似乎能论证结论。例如你发现了某个数据变化的同时结论数据也变化了。但是要记住这个线索只是假设,不要立刻当成结论。否则的话很可能会在后面被新出现的证据推翻。
在这一步中,把发现的线索当作假设,然后应该思考怎么进一步去论证,需要哪些进一步的数据。
步骤三:进一步搜集数据,论证假设
1 是自然下降/上升吗?
出现数据问题,可以先评估是自然波动吗?
假设步骤一中的案例,渠道E中X供应商在某个周末下单数增加。它的应单率减少。应单率指的是在用户下的订单中,司机接单的数量。
提出假设:X下单数增加导致司机运力不足,从而应单率减少。
但首先可以评估下是否自然波动。例如是否只要周末X的应单率就会下降。可以对比之前周末的数据。
2 有可能是整体性因素吗?
排除了自然波动,看一下是否有整体性因素?
例如那周末暴雨,导致航班变化、取消比较多。因而订单自动取消了。而这个因素不仅仅影响X供应商,也会影响Y供应商。那么可以看Y供应商的应单率是否也下降了。
3 是假设导致的吗?
排除了以上2种情况,就要开始论证假设。假设论证一般是因果关系的论证。
1) 单一因果关系
即A导致B,这一论证除了去看出现A 是否出现B,还要看
- 出现A 是否有非B
- 未出现A是否一定是非B 是否有B
- 有B的情况是否一定是A,是否有非A
- 非B的情况是否有A,是否是非A
例如,要论证A的增长引起了B的增长,通常需要看
- 有A增长时,B是否增长
- A不变或下降时,B是否不变或下降
- A增长幅度大或小时,B增长幅度是否大或小
- 以及反面的情况
如果只能看到A和B的数据,没有非A或非B的数据怎么办呢?
例如我们在接送机的列表页新上了一个返现报价的产品。但是购买返现产品的用户比较少。由于返现产品原价高会被价格低的普通产品挤下去,导致有些情况用户在第一屏看不到返现报价。我们推测返现整体露出少(A)所以效果差(B),但除了做AB测试再定义个逻辑,我们不可能找到整体返现露出多的情况。
这个时候,可以看子维度。
- 看子维度,且不要只看一个子维度,穷尽子维度是否能得出假设。
- 看子维度的子维度。看子维度是否能再分也能提供信息。
不同车型(经济型、舒适型、豪华型等)都有返现。有些车型普通产品少,返现产品露出多。返现露出多的车型效果是否更好?还有一个子维度是城市。有些城市的普通产品也比其他城市少。不同城市的不同车型露出不同。该城市该车型露出多,该城市该车型是否效果好?等等.
2)因果链条
有时,一件事不能很直接找到原因,而是有一个长的因果链。那应该找出因果链每一环,定义测量指标,对每一环论证。
例如步骤一里的案例实际是个因果链。
Y供应商下单增长(指标:下单数) -> 导致司机运力不足(指标:应单率=接单数/下单数) -> 接不起(指标:完成单率=完成单数/接单数)
除了看下单数和完成单数,还要关注应单率的变化。
这一步骤中会有一个问题:有些数据比较难找。此时可以进行估算。
例如评估产品露出对返现影响那个项目时,需要看不同城市的露出率。由于接送机需要用户先输入时间地址,再根据用户选择的区域展示该区域的产品。有些区域有返现露出,有些没有。前端很难记录多少概率下该城市返现是露出的。
于是我就想,如果知道一个城市的热门区域地址,将它们一个个输入查看,记录是否露出,不就能估算该城市的返现露出率了吗?那怎么知道一个城市热门区域有哪些呢?我打开携程酒店,上面就有城市热门区域嘛~接送机的客户一般都是旅游或出差,所以酒店入住的热门区域也差不多是接送机用户地址的热门区域。
步骤四:得出结论
完美。