《数据产品经理修炼手册》3-4
第3章分析思维与实践
与数分的区别
- 数产:参与市场分析与调研,负责产品规划和整个生命周期的迭代优化,撰写产品文档,跨部门沟通协调
- 数分:数据分析、监控与挖掘,利用数据指导优化方向
常用的分析方法
- 常规分析:
很多数分都是直接把业务数据从Hive或者MySQL导入到Excel,然后通过简单的表格线图来直观的分析数据。经常会用到同比、环比分析法和ABC分析法(分析对比趋势和占比情况)
同比:某个周期的时段与上个周期的时段比较,例如今年6月与去年6月
环比:时间段与上个时间段,例如本周与上周
ABC:例如20%占比80%的财富,分析个别城市订单量大,重点支持 - 统计模型分析:
应用一些成熟的模型来进行深入分析,常见的业务场景如下:
1预测产品未来一年的日活用户的趋势变化,预估DAU(使用回归分析)
2上线了一个营销活动,预估活动效果、用户参与度(分类分析,依据以往活动分析各个因素在满足什么情况时才会产品想要的效果)
3对现有用户细分,评估哪一类才是目标用户群(聚类分析)
4在购买了很多商品后,预估哪些商品会被同时购买(关联分析) - 自建模型分析(看书)
应用实例
-
商城积分与DAU的关联分析
- 背景:
1领取过积分与未领取过积分的用户在DAU和平均停留时长上是否有区别?
2领取过但未消费过积分与领取过且消费过积分的用户的DAU与平均停留时长是否有差别? - 结论:
1领取积分可以有效提高DAU(5%)与停留时长(3%)
2积分的消费与否不能明显提高两者 - 分析思路:
1用户分三组:未领取、领取未消费、领取且消费
2分析这三组在领取或者消费时前后一周的DAU与停留数据 - 详细数据分析过程:
看书
- 背景:
-
基于时间序列预测订单量
- 背景:
预测某网约车的订单量数据 - LSTM
- 步骤:
1数据抽取
2用时间序列特征构建模型,采用滑动窗口,选取前28天的数据作为一个训练集,对训练集进行对数变换,去除样本件的波动
依据经验和数据可得性构建最高温最低温天气特征与节假日两个外部特征
构建模型:使用RNN autoencoder+DNN Regression。前者用于降维后者用于预测
- 背景:
第4章数据仓库理论与应用
Hadoop
大数据平台结构
-
原始数据层(ODS):
一般由基础的日志数据、业务线上库和其他来源数据获得。
ODS的数据通过ETL(抽取extra、转化transfer、装载load)进入数据仓库- 主要数据源有两个,分别是客户端用户操作日志(分析app和产品优化的基础);业务数据库,例如订单交易情况
ODS的表通常包括两类:一类是储存当前要加载的数据,另一类是储存处理完之后的历史数据 - ODS是当前的、不断变化的数据,而数据仓库是不再变化的数据,一般来说会落后ODS一天
- 为什么要使用ODS呢?
1在业务系统和数据仓库之间形成一个隔离层,降低数据转化的复杂度
2转移一部分业务系统细节查询的功能,减轻业务系统的压力
3完成数据仓库中不能完成的一些操作
- 主要数据源有两个,分别是客户端用户操作日志(分析app和产品优化的基础);业务数据库,例如订单交易情况
-
数据仓库(DW)
主要功能是以ODS层数据为基础,通过逻辑加工产出数据仓库主题表。
数据仓库又细分为基础层、主题层和数据集市。- 为了方便企业快速做各种业务决策而提供数据支撑而构建的集成化数据环境
- 主要有三层:
基础层(对ODS数据做轻度汇总明细)
主题层(按照一定的维度和业务逻辑对一类数据进行聚合,主要生成画像表和主题表)
数据集市(将基础层和主题层的数据按照业务需求进行聚合,生成宽表和cube,推送给数据分析和业务部门使用) - 自由主题
-
数据应用层
主要用于处理消费数据仓库的数据,大数据分析平台、行为分析平台都是典型案例- 主要有三种形式:
描述性分析应用:描述所关注业务的数据表现,让用户了解业务发展状况
预测性分析应用:在描述基础上,在一定算法和模型的指导下,进一步预测业务的数据趋势
指导性分析应用:基于现有数据和对未来的预测,指导业务决策与建议
- 主要有三种形式:
数据埋点
数据埋点是一种常见的数据采集方法,采集的数据可以帮助业务人员分析网站或APP的使用情况、用户的行为习惯等,是后续建立用户画像、行为路劲分析的基础
-
埋点方式
- 主要有三种方式
1代码埋点:研发时埋点,有很强的灵活性,但人力成本高
2可视化埋点:以前端可视化的方式记录前端页面元素与操作的关系,但比较受限
3无埋点:事件发生时调用相关的接口上报数据
- 主要有三种方式
-
埋点事件
- 主要有三种:
点击事件、曝光事件和页面停留时长
- 主要有三种:
数据埋点实例
指标字典
- 这个是业务数据标准化的基础,目的是对指标进行统一的管理,方便共享,达成对业务指标的共识。