读书笔记
《数据分析实战》
1. 什么是数据科学家
书中通过“什么是数据”和“数据在商业中的应用”,推导出数据科学家的定义。
人们通过观测数据来推测出某种因果关系,再用这种因果关系来预测未来或者控制原因以达到预期的结果。把从事这种工作的人成为数据科学家。
-- 书中摘录
上面的定义觉得不是很清晰,就百度上找了找:
数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。
-- 百度百科
我觉得数据科学家就是对于数据相关的所有门类都有一个整体的认识,感觉是个“杂家”,精通算法、什么深度学习、机器学习、AI之类的都是信手拈来,对我就是神一样的存在了,努力吧,同学。
2. 3中类型的数据科学家
书中将数据科学家分成了3类,主要从所在领域分类:
- 商业领域出身
- 统计学出身
- 工程领域出身
这应该也是数据科学家成长的3条路线,从不同的路线出发,最终殊途同归。当然,这3个领域需要综合,才称得上是合格的数据科学家。
书中的技能配图,可以瞻仰下
3. 数据分析的5个流程
书中,将数据分析分为5个步骤,看完后,感觉很靠谱,真的很实用,这里分享下
商业数据分析的目的是解决问题,要解决问题,需要使用统计分析、机器学习、数据挖掘等各种方法。
3.1 现状和预期
首先我们要确认“什么才是数据分析中的问题”。
比如,“某种商品销售额下降”,这是一个现象,但它是不是一个问题呢?
如果,该产品不是公司主打商品,并且就要下架了,那销售额下降并不是一个问题,或者,该商品处于正常的波动,或是季节、市场环境的外部因素导致的,可能都不是一个问题;
相反,如果该商品是公司主打商品,并且没有其他外部因素导致,那销售额下降就是个问题了。
这里记录下,其实,还需要确认下,销售额取数逻辑是否有问题,确保数据没有问题,并且要知道这个下降是怎么定义的,是和什么商品,或时间段对比发现下降的。
有对比,才会有差距,既然下降了,说明他心里一定有个预期,即现状和预期之间是有差距的
3.2 发现问题
有了上面的“现状和预期”,我们需要区别”现象和问题“。
像“销售额下降”,“顾客流失”,这都是一个现象,我们需要从中去发现问题
现象 | 前提 | 预期 | 是否有问题 |
---|---|---|---|
销售额下降 | 销售额比例低 | 维持现状 | 无 |
销售额下降 | 销售额比例高 | 将销售额恢复到良好状态 | 有 |
销售额上升 | 广告费用高 | 降低广告费用 | 有 |
销售额上升 | 广告费用适当 | 维持现状 | 无 |
从3个角度发现问题
发现问题的关键是思考并理解现状和预期之间的差距。
那怎样发现、理解这个差距呢?
观察数据大小
首先考虑有哪些因素会导致这些差距,并明确这些因素的影响程度大小,即找到影响最大的因素。
将数据分解后观察
指从多个角度观察发生的现象,分解出构成这种现象的因素。在分解的时候,必须遵循MECE原则:
- Mutually 相互性
- Exclusive 排重性
- Collectively 完整性
- Exhaustive 全面性
我感觉这个很抽象,不是很理解,书上有一个例子,说的还不错,
常用的拆分方法是因数分解,比如:
销售额=人均销售额*购买人数
拆解后,找到容易调控的因子,才方面后面去解决问题
将数据比较后观察
指的是将发生问题是的数据和没发生问题时的数据相互比较,并找出问题出现的原因。
比如,按时间对比,看看同比、环比(使用时间序列)
- 昨天和今天比较
- 上周和本周比较
- 同一个商业活动前、后比较
- 与竞争对手数据比较
- 公司内部服务之间利益比较
- 年龄段差异
- 性别差异
- 地域差异
3.3 数据收集和整理
通过前面,对现状和预期的对比,发现影响最大的因素后,我们就需要开始收集数据,来验证问题。
数据收集的话,还会涉及到怎样去采集数据,比如想要的数据,并没有保存下来。
已保存下来的数据,通常会保存在文件、数据库或者是Hadoop(HDFS)中
收集完数据,我们就需要对数据进行加工,变成我们后面分析需要的格式,比如使用SQL进行处理,或者Python、R进行整合;我们再加工数据的同时,为了方便我们后面的分析,可能还需要增加一下自定义的变量,比如一些标志位,像“已消费(1),未消费(0)”;或者是一些离散变量,类似于区间段:
- 消费金额较大用户(1)
- 消费金额一般用户(2)
- 消费金额较小用户(3)
3.4 数据分析
书中把数据分析按目的,分为两大类:“决策支持和自动化、最优化”。
其中,“决策支持”使用简单求和、交叉列表的方式分析,还会涉及预测模型;
“自动化、最优化”则涉及机器学习、构建算法。
3.5 解决对策
通过上面两种分析思路,我们需要针对分析的结果,来判断是否要采取对应的决策,不同的对策, 又会产生不同的沟通成本。