以我的数据日常为例,简单将数据分析的流程梳理一下。
数据的整个流程可以划分为
- 数据目的
- 数据获取
- 数据处理及认知
- 模型分析
- 数据结论及方案
- 数据报告
明确数据目的
提出问题是数据分析的出发点,出发点不明确的话,数据分析也像无头苍蝇。
出发点一般分为两类:验证型和探索性
- 验证型验证型一般针对已经发生的业务现象,比如这今天的gmv突然从昨天的100万跌倒了30万,这个时候出发点就是:gmv下跌的原因。这个时候就从下跌的关联数据开始分析为什么下跌,得出结论后提出对应的解决方案。
- 而探索性一般针对未知,比如针对用户的购买记录进行价值分层,这个时候的出发点是:用户价值分层。这个时候就没有一个明确的业务现象,而是需要去探索如何定义价值分层,并通过哪些维度来实现,实现了分层之后对经营的建议。
获取数据样本
要想分析,必须要先有数据。数据源可以分为外部和内部两种,这里重点针对内部数据,分析得最多的一般也是内部数据。
外部数据源一般包括爬虫数据&行研数据等,外部数据一般都需要花费较大的数据清晰的精力。内部数据源一般指的是平台用户使用产品所产生的各种行为数据,以电商行业为例,用户的浏览记录,uv&pv,购买记录等。
内部数据获取及清洗一般使用 sql+excel+python的形式。
- sql的话算是数据分析师的必备技能,常见的要分清 jion的各种用法,group by分组以及常见的函数如 sum() avg() count()等
- 除了sql的代码技能,就是要设计好取数口径。一般通用的指标没有特别口径,如果涉及到特定用户行为的挖掘分析,就要多复盘几遍代码是否有遗漏和逻辑是否正确。
- 尽量可以再sql里完成部分的清洗和计算,这样出来的样本数据比较干净省心。
数据处理及认知
拿到sql跑完的数据可不是直接不久能用的,还要进行处理和认知,数据处理一般针对脏数据和缺失数据。
对于脏数据一般是做删除处理,比如已经注销的无效用户。另一个就是缺失值的处理,对缺失值可以进行填充或者删除。
- 填充一般使用字段的 中位数或者算数平均值,如果值波动很大使用中位数,波动不大可以使用算数平均值。还有一种填充方案是使用其他字段或者临近记录的字段值。
- 删除是需要慎重考虑的,虽然字段值有缺失但是这个字段值一样可以传递数据信息。举例一个用户的首次购买时间字段是空值,这个时候空值传递的信息是 这个用户并没有完成购买转化。
数据认知主要是对值的分布有一个大概了解,数据是不是异常分布的。一般可以通过 算数平均值&中位数&方差等了解到。
在完成数据认知后,有的时候要再要对数据进行处理,视分析的目的而定。举个例子:在分析普通用户的购买金额转化分布时候,特大客的金额最好是要剔除的,否则将会影响一般用户的结论描述。
模型分析及结论
在模型分析阶段主要用tableau+python
常用的模型有
- 漏斗模型
- 矩阵模型
- 用户价值分层模型
- 购物篮模型
- 留存模型
- 回归模型
先写这么多,留坑待填
而且在分析的过程中,结论是一点一点明朗的。
解决方案及报告
得出了结论后,数据分析师并不能只交个结论啊,还要结合当前的业务现状对结论做出解读和方案的建议。
大家都在讲数据驱动业务,但是很多公司其实都没有做到或者做好,也很难做好。
报告的话就是可视化了基本,老板都喜欢图,直观易懂,没有人会愿意看一大堆文字。文集里也在连载可视化的文章,首选tableau,python也有很多包可以用。
做数据分析,得出结论和方案不算很难,难的是如何推动数据结果落地。
我的tableau public:yangliang的tableau public主页