知识点总结
如何用数据解决实际问题
第1章 解决问题,你需要“流程”
图1 解决问题的流程
- 目的:针对“原因是什么,需要采取哪些行动”等问题得出结论
- 问题:思考“怎样才是最理想的状态”,现状与理想状态之间的差距就是问题
- 通过“假设”分解问题和寻找原因,再收集证据(数据)证明或推翻假设。难以收集全部数据是很正常的,但也不应该根据“现有数据”来开始所有的工作,需要设法借用相同或相近的数据来代替理论上所需的数据
第2章 分解数据,找到“问题的关键”
- 趋势:捕捉数据在一段时间内的变化
- 快照:截取某个期间的情况,查看指标在期间内的大小、比例和分布等
- WHAT型假设 将较大变量分解为具体指标,找到最小的具体指标以后再通过维度拆分
- 平均值&中位数
指标 | 优点 | 缺点 |
---|---|---|
平均值 | 能够用一个数值表现整体的“大小” 易于计算及使用 |
平均之后,看不出来原始数据 存在极大(或极小)数值时,会受其影响 |
中位数 | 不受离群值影响,用位于中间的数据表示 | 表示整体“大小”的程度不够精确(因为消除了离群值的影响) 与平均值相同,看不出来原始数据 |
- 平均值会忽略“数据构成要素的差异”,可能会使读者误入“辛普森悖论”
- 标准差。体现数据波动,前提是两个数据大小相当或相同
- 变异系数。变异系数=标准差/平均值,变异系数可以消除数据大小(规模)给标准差带来的影响
- 通过直方图可以直观查看数据分布
- 矩阵表
维度 | “快照”视点 | “趋势”视点 |
---|---|---|
大小/比例维度 | ||
波动维度 |
第3章 采用交叉视点,锁定“原因”
前两章是对现状更加清晰的了解,但仍属于“整理数据”的范畴,第3章的原因分析才开始真正“分析数据”
- 相关分析。散点图和相关系数。可先计算相关系数,对重要内容绘制散点图确认。相关系数一般达到0.5或0.7即相关。
- WHY模型 ①寻找接近结果的原因,在关联更密切的数据之间考察相关关系;②选择能够采取对策的原因,找到原因以后要可控制可解决
-
两种相关分析模式。第1种,找出对最终目标具有密切影响的原因;第2种,在某个业务流程中找出瓶颈
图2 相关分析模式1
图3 相关分析模式2
- 得出结论时的4大误区:①因果关系。相关关系不等于因果关系;②疑似相关。找到更直接的原因,两个高相关的数据中间可能有更密切的要素;③数据范围。数据的相关性可能在指定范围内表现,从全局来看也许不明显;④离群值。没有明确理由不可删除离群值
图4是“讨论及实施对策”前所有步骤的举例总结,包括如何拆解一个大变量和如何找到影响细分指标的原因
图4 解决问题的故事构造
第4章 制定对策,要依据“方程式”
将第3章提及的“相关”量化
- 一元线性回归。R2(相关系数的平方),R2 一般达0.25或0.49即表示线性回归方程拟合良好,有可解释性。回归时注意:①数据之间必须具有单纯的比例关系;②离群值以及不同的数据选择范围,会导致分析结果产生很大不同
- 用相关分析判断数据关联的紧密程度,用回归分析判断其影响大小
第5章 用数据讲故事
- 把解决问题的过程展现出来,把精力用来考虑“核心信息是什么”“对方想知道什么”
- 随时与相关人员分享分析的过程,必要时与他们展开讨论,了解对方的想法和困惑
- 高级技能简介。多元回归,注意多重共线性的问题;假设检验,能够帮助我们了解自己所使用的数据范围的局限,并在此基础上进行分析
感谢阅读,欢迎点赞