数据化运营速成手册
胡晨川
这是一本基于excel 2016的数据分析和运营技巧书
让读者正确地理解并应用数据分析
是这本书的目的
1. 全面认识数据图表
1.1 数据图表的基本构成
-
维度和指标
Measure/Dimension
分类变量/有序变量/数值变量/逻辑变量
-
写标题的套路
用图表直观地反映信息,代替大段的文字和复杂的逻辑陈述,提高信息传达的效率
标示性标题/描述性标题/指导性标题
考虑:
* 我最近做的重要决策大致上会反映在哪几个指标?
* 最近我的第一关键指标是什么,与它最相关的指标是哪几个?
* 业务的全局变化如何,与过去我们有哪些方面的改进或者退步?
* 目前的那些执行动作需要调整,对应的指标是什么?
-
图形元素的本质
几何对象和图形属性
-
坐标轴是传达信息的关键
坐标轴上的变化,能让数据撒谎
-
图例的位置
告诉读者各个图形元素分别代表什么指标
-
辅助线能够突出某些信息
出现在图表中本身不表达任何既有数据,但能帮助观察者形成认知和推断的图形元素
数据标注辅助线/数据推断辅助线
数据标签需谨慎使用
1.2 控制数据图表中的信息量
可怕的不是出错,而是产生混淆
图形元素数、辅助线数、辅助坐标轴数一共不超过5
1.3 不需要作图
短期内的了解型需求
-
多维度相互结合的需求
表格更有用
作图传达的信息非常有限时
图表中的数据存在复杂的逻辑关系时
2. 建立数据图表的认知
2.1 利用散点图探究数据间的关系
散点图最核心的价值在于发现变量间的关系
最基本的散点图样例
散点图的制作
变种1: 添加平滑线
-
变种2: 利用气泡图观察更多指标间的关系
5个变量是二维散点图的极限
-
变种3: 用分类矩阵形成决策
波士顿矩阵,根据
相对市场占有率
和销售增长率
两个维度衡量企业的各种产品 散点图的局限性
2.2 利用柱形图将对比做到极致
柱形图的核心思想就是对比
-
利用累加柱形图对比数据结构的变化
有对比才有信息
多指标组合对比
用平均值优化单指标的对比
用瀑布图观察总量分解后的对比
-
如何正确对比数值指标与比率指标
柱形图与折线图结合的表达出一个指标的数值和变化率,保证刻度线一致,横坐标表示时间
2.3 用折线图观察时间序列数据
折线图核心思想是趋势变化
-
如何观察趋势
利用趋势线
趋势变化的速率是否满足需求
波动情况
指标的周期性变化
关注极值
关注结构性变化
-
探寻趋势变化原因
定位问题
梳理事件
分析逻辑关系
-
得出结论
认识到记录的重要性。有清晰的时间记录,在我们对时间序列数据进行回溯时才有据可查
2.4 利用面积图观察数据结构的变化趋势
动态的观察数据结构的变化: 堆积面积图
用于队列分析: 堆积面积图
2.5 用雷达图进行静态的多维对比
2.6 其他类型图表
使用饼图的6个坑
提升视觉冲击力: 树状图
量化流程各环节间的转化率: 漏斗图
数据图表进阶
3.1 数据图表到底是什么
分清楚数据中的维度和指标
几何对象就是点线面的结合
标注和坐标系
通过分面来展示数据的子集
3.2 如何正确地选择图表
3.3 数据图表中的细节
图表背景和绘图区背景
-
坐标轴
坐标轴是否展示出了足够的差别
范围是否大于数据序列的4倍标准差
灵活使用辅助线
线性趋势线的应用
-
应用移动平均趋势线做时间序列的预测
在时间序列数据中,N期移动平均就是以期值为终点,计算过去N个值的算术平均数
添加信息增强线
用标注线指示必要的信息
3.4 让图表升级的高级技巧
-
运用组合图表增加信息承载量
数据可视化的目的是减少观察者思考的时间
运用子母图增加图表中的信息量
条件格式中的几项实用功能
使用迷你图表压缩空间
用不等宽技术优化柱形图和条形图
用Bullet图进行绩效评价可视化
4 数据化运营的基础知识
4.1 最基本的数据获取能力
认知数据库的一般构造
能阅读最基本的取数代码
用excel获取数据
4.2 快速认知数据
仔细审核数据源的质量
-
提升数据集的质量
清理垃圾数据
-
处理空值的技巧
用最接近的数据替换它
用平均值替换
合理推断。比如用移动平均数
-
异常值与异常字段的处理
数值特别夸张,文本特别长,NULL, 不匹配的数据类型
统一数据类型与单位
-
描述统计分析
-
观察数据的一般水平
中位数
众数
加权算术平均数
-
观察数据的稳定性
任何风险衡量的模型,其本质都离不开衡量波动性,即方差与标准差
衡量两个数据序列间相互波动的情况是有办法的,即协方差
-
初步认知数据的分布特征
最大值,最小值,中位数,算术平均数,75%分位数和25%分位数
-
深入认知数据的分别特征
频率分布图
-
利用相关系数理解数据之间的关系
-
通过多维交叉深入认知数据集
多维分析就是通过多个维度的相互组合,发现数据内深层次的信息
4.3 几套有用的分析思维框架
建立起体系化思维。有套路
-
66法则与SQVID原则
从谁/什么?有多少?在哪里?什么时候?怎么样?为什么? 5W1H
SQVID:
简单/精细(Simple/specific) 定性/量化(qualitative/quantization) 愿景/执行(vision/validate) 个别/对比(individual/compare) 变化/现状(delta/status)
-
麦肯锡七步成诗
-
清晰的陈述要解决的问题
问题要具体存在
问题需要可执行
-
使用逻辑树来分解问题
MECE ( Mutually Exclusive Collectively Exhaustive)
-
淘汰非关键问题
找到那些数量上只占20%,影响力却是80%的重点问题
-
制定详细的工作计划
每个to do都必须有负责人和截止时间
-
进行关键分析
设立假设,然后通过数据进行检验
-
综合分析结果,建立论证
寻找到一条逻辑主线, 将各个分散的结论和信息进行组合
写一个精彩的故事打动决策者
-
4.4 创造指标应用指标
-
什么是指标
indicator
过程型指标
一般需要高频的跟踪(甚至是实时), 根据指标的变化,及时做出调整
结果型指标
一般从活动中抽象而来,适用于运营活动的评价
-
如何设计高质量的指标
信度
指标衡量某事物的准确性、精确性和稳定性
效度
指标衡量所获得的信息,确实是研究者所期望获得的信息
计算简单快速、易理解、泛化性强,对业务敏感,可持续性
-
指标组合: 综合指数
加权综合指数
各个指标先标准化,转化为统一单位
-
需要关注的核心指标
-
第一关键指标法构筑指标体系
找到第一关键指标,然后逐层分解
-
套用AARRR模型
用户获取(Acquisition) -> 用户激活(Activation) -> 用户留存(Retention) -> 用户价值转化(Revenue) -> 用户推荐(Referral)
用户生命周期价值
将从单个用户端获取的收入分摊到使用产品的每一天,将所有活跃用户每天分摊到的金额进行汇总,就是当天的总的用户价值;若当天用户不活跃,将他分摊的金额计算为负值,将所有负值进行加总,就是损失的用户价值。用柱形图将这两个方向的数据表现出来
-
pipeline衡量销售流程
一种漏斗,衡量整个管道的转化效率
-
4.5 运营活动的量化
-
优秀的运营活动的诸要素
明确的活动目标和预算
清晰的响应关系和执行流程
可靠的过程型指标
准确的结果型指标
科学合理的效果评价方式
知识的沉淀
聪明的负责人
-
需要哪些过程型和结果型指标
活动与指标最好是一对一关系
-
如何评价运营活动
活动是否有效
为达成目标我们的投入产出比是否合适
-
从纵向和横向两个角度全面对比
活动前后的数据对比,一定要跨满一个业务周期
基本流程
产生问题
-
利用ICE方法评估方案
Impact(影响面大小) Confidence(提出者对执行效果的信心) 和 Easy(执行的难易度)
-
设计指标
指标要对问题敏感
准备工具
选择对象
随机分组
假设检验
形成结论
-
传达部分
无效也是一个有价值的结论
-
一种更严谨的测试效果量化方法:DID
对比施予活动这个时间点后的实验组和对照组在指标上的差别
对实验组和对照组指标的数值差别进行显著性检验,看是否有足够里有判断他们是存在差别的
difference in difference
-
相似活动间效果的对比
目标相同,时间相近可以对比
运营活动量化的总结
4.6 数据化运营的思维方式
信度和效度思维
平衡思维
分类思维
-
矩阵思维
重要-紧急矩阵
-
管道/漏斗思维
漏斗的环节不该超过5个,漏斗各环节的百分比数值、量级不要超过100倍
相关思维
-
远近度思维
确定好核心问题后,分析其他业务问题与该核心问题的远近程度,由近及远,有计划地分配自己的精力
-
逻辑树思维
下钻(分解)和上卷(汇总)
-
时间序列思维
距今越近的时间点,越要重视
同比
-
异常值出现时,必须重视
通过添加平均值线和平均值加减一倍或两倍标准差线观察
-
队列分析思维
按一定规则,在某些维度上将观察对象切分,组成一个观察样本,然后观察这个样本的某些指标随着时间的演进而产生的变化
-
循环/闭环思维
不要用漏斗来衡量一个循环
-
测试/对比思维
决策前尽量做对比测试
测试时要注意参照组的选择
-
指数化思维
遵循独立和穷尽(MECE);注意各指标的单位,标准化之;权重和要等于1
-
极端化思维
极端化是一种简化
-
反向思维
关注反常情况
4.7 运营数据报告必备要素
关键信息优先
只有单向的逻辑线
有选择地进行维度下钻
-
不要展示过多的数据图
精简图表
附上明细数据集和制作过程
给出实质性的建议
5 快速提升量化分析能力
5.1 朴素贝叶斯模型
概率
0和1之间的数字,表示特定结果发生的可能性
几率
某一特定结果发生与不发生的概率比
似然
两个相关的条件概率之比。给定B发生的情况下A发生的几率和A的整体几率之比
贝叶斯公式
P(A|B) = P(B|A) * P(A)/P(B)
-
全概率公式
P(E|P) = P(P|E) * P(E) /[P(E)P(P|E) + P(~E)P(P|~E)]
-
让大数定律给你自信
实验次数足够多时,某事件发生的概率一定会收敛于他的基本概率
-
窥一斑而见全豹:中心极限定理
一个大型样本的正确抽样与其代表的群体存在相似关系
5.2 使用假设检验进行理性的推断
-
统计分布是一切推断的基础
这世界上的所有事件,其结果都遵从相对有限的几个概率分布
正态分布;指数分布;卡方分布;BETA分布;POSSION分布;二项分布;T分布;F分布
-
以正态分布为例,阐述假设检验的过程
把一个不容易被推翻的假设当作原假设
拒绝接受原假设,取决于我们认为在原假设成立的前提下,实验所得出的结论对应的概率为多小时是不正常的
-
双侧检验与单侧检验
原假设“B版本的跳出率不比A版本低”,即"B>=A?"。这样的原假设是有方向性的,即大于或者小于,这种假设被称为单侧检验。
原假设是"B=A?", 其备择假设就是"B!=A", 称为双侧检验
-
假设检验的细节补充
标准差与标准误差的不同
假设检验的检验指标和其对应的分布并不是局限的
大数据不能替代统计推断,也不能替代假设检验
-
关注两类错误
拒绝了该接受的假设;接受了该拒绝的假设
针对某个业务问题建立一个原假设,然后努力手机信息去挑战它,如果没有充分的证据证明原假设错误,那么就选择接受它
5.2 利用方差分析辨别方案的有效性
-
用户激活措施的有效性判断
方差分析的前提
每一组所对应的总体服从正态分布
-
各总体的方差相同
方差齐性分析检验
从每一总体中抽取的样本是相互独立的
-
运用置信区间增强数值估计的可靠性
数据若服从T分布或者正态分布,它的95%置信区间就是点估计值加减1.96个标准差
两两比较寻找最精确的结论
理解方差分析的思维
5.4 浅谈回归分析的应用
-
因变量与自变量的相关关系是回归的基础
只有在相关系数搞得两个指标之间建立回归模型才有意义
-
线性回归建模的详细过程
-
重视回归建模前的分析过程
数据分析,不仅仅是对建模后的结果进行解释,而是从业务理解,建模前的逻辑推理,模型的适用性分析,数据认知等,直到建模后的结果解释,一整套的过程
观察因变量与自变量的相关关系并进一步清洗数据
-
回归建模的结果怎么来
最小二乘估计
-
利用现实数据建立模型并解读结果
查柜回归模型的 Adjusted R Square,即拟合优度
观察方差分析板块中的结果
需要看回归模型的系数
利用多元回归改进模型
-
线性回归分析的注意点
5.3 用时间序列分解模型观察波动
-
怎样观察时间序列数据
X轴和Y轴
起点和终点
观察极值
转折点
周期性
波动性
与参考性的对比
-
何为时间序列分解
T 长期趋势
S 季节变动
C 循环变动
I 随机波动
-
时间序列分解的步骤解析
用移动平均数分离出显性的周期性波动
将业务周期效应和不规则变动进行区分
观察数据波动的拐点,将时间序列分段
利用线性回归,基于移动平均数计算长期趋势
分离出循环效应和随机波动
时间序列数据的预测值就是 长期趋势 + 循环效应 + 周期效应
检验时间序列分解的效果
时间序列分解方法的应用局限性
5.6 如何优化调查问卷
-
态度型问题,增加选项以支撑量化分析
包含中间项, 即填写中间项的人表示没有态度
问题要有必要切贴合业务需求
-
设置过滤器,识别无效回答
设置互证的问题,即过滤器
-
避免双重问题和一重半问题
双重问题即一个提问隐含两个问题
一重半问题即某个选项实际上暗含了两个甚至多个选择
动态地调查,设置问题库以保障多次调查的质量
6 科学地决策
运筹学问题
6.1 从数据中形成决策
管理科学是将定量因素(quantitative factor) 有关的管理问题通过应用科学的方法(scientific approach)辅助制定管理决策(managerial decision making) 的一门科学(discipline)
6.2 线性规划是什么
线性规划是应用数据模型对所研究的问题进行表述
线性是指建模过程中的数学表达式的形式,即线性方程组
规划就是要确定一组结论(一组数字),而不是一个结论(一个数字)
线性规划一定要有目标,要有决策选项,要有约束条件,要有决策选项对目标的贡献,要有量化指标或者数字依据
线性规划只是规划求解方法的一个细分项,还有整数规划,非线性规划,目标规划
6.3 线性规划建模的操作过程
建立逻辑清晰的表格
设置输出单元格 目标单元格和可变单元格之间的运算关系
设置线性规划建模参数
6.4 如何从数据中形成决策
6.5 4类典型且实用的线性规划模型
资源分配模型
成本收益平衡模型
网络配送模型
混合模型
6.6 线性规划模型小结
取决于我们有没有能力将现实问题抽象为线性规划问题
7 应用优化的工具
8 工作经验杂谈
对业务的理解和思考,永远高于分析技术的选择