读书笔记-数据分析实战(1、2章)

读书笔记

《数据分析实战》

1. 什么是数据科学家

书中通过“什么是数据”和“数据在商业中的应用”,推导出数据科学家的定义。

人们通过观测数据来推测出某种因果关系,再用这种因果关系来预测未来或者控制原因以达到预期的结果。把从事这种工作的人成为数据科学家。
-- 书中摘录

上面的定义觉得不是很清晰,就百度上找了找:

数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。
-- 百度百科

我觉得数据科学家就是对于数据相关的所有门类都有一个整体的认识,感觉是个“杂家”,精通算法、什么深度学习、机器学习、AI之类的都是信手拈来,对我就是神一样的存在了,努力吧,同学。

2. 3中类型的数据科学家

书中将数据科学家分成了3类,主要从所在领域分类:

  • 商业领域出身
  • 统计学出身
  • 工程领域出身

这应该也是数据科学家成长的3条路线,从不同的路线出发,最终殊途同归。当然,这3个领域需要综合,才称得上是合格的数据科学家。

书中的技能配图,可以瞻仰下

reading_notes_data_analysis_01_01.png

3. 数据分析的5个流程

书中,将数据分析分为5个步骤,看完后,感觉很靠谱,真的很实用,这里分享下

商业数据分析的目的是解决问题,要解决问题,需要使用统计分析、机器学习、数据挖掘等各种方法。

reading_notes_data_analysis_01_02.png

3.1 现状和预期

首先我们要确认“什么才是数据分析中的问题”。
比如,“某种商品销售额下降”,这是一个现象,但它是不是一个问题呢?
如果,该产品不是公司主打商品,并且就要下架了,那销售额下降并不是一个问题,或者,该商品处于正常的波动,或是季节、市场环境的外部因素导致的,可能都不是一个问题;
相反,如果该商品是公司主打商品,并且没有其他外部因素导致,那销售额下降就是个问题了。

这里记录下,其实,还需要确认下,销售额取数逻辑是否有问题,确保数据没有问题,并且要知道这个下降是怎么定义的,是和什么商品,或时间段对比发现下降的。

有对比,才会有差距,既然下降了,说明他心里一定有个预期,即现状和预期之间是有差距的

3.2 发现问题

有了上面的“现状和预期”,我们需要区别”现象和问题“。
像“销售额下降”,“顾客流失”,这都是一个现象,我们需要从中去发现问题

现象 前提 预期 是否有问题
销售额下降 销售额比例低 维持现状
销售额下降 销售额比例高 将销售额恢复到良好状态
销售额上升 广告费用高 降低广告费用
销售额上升 广告费用适当 维持现状

从3个角度发现问题

发现问题的关键是思考并理解现状和预期之间的差距。
那怎样发现、理解这个差距呢?

观察数据大小

首先考虑有哪些因素会导致这些差距,并明确这些因素的影响程度大小,即找到影响最大的因素。

将数据分解后观察

指从多个角度观察发生的现象,分解出构成这种现象的因素。在分解的时候,必须遵循MECE原则:

  • Mutually 相互性
  • Exclusive 排重性
  • Collectively 完整性
  • Exhaustive 全面性

我感觉这个很抽象,不是很理解,书上有一个例子,说的还不错,
常用的拆分方法是因数分解,比如:

销售额=人均销售额*购买人数

拆解后,找到容易调控的因子,才方面后面去解决问题

将数据比较后观察

指的是将发生问题是的数据和没发生问题时的数据相互比较,并找出问题出现的原因。
比如,按时间对比,看看同比、环比(使用时间序列)

  • 昨天和今天比较
  • 上周和本周比较
  • 同一个商业活动前、后比较

  • 与竞争对手数据比较
  • 公司内部服务之间利益比较

  • 年龄段差异
  • 性别差异
  • 地域差异

3.3 数据收集和整理

通过前面,对现状和预期的对比,发现影响最大的因素后,我们就需要开始收集数据,来验证问题。
数据收集的话,还会涉及到怎样去采集数据,比如想要的数据,并没有保存下来。
已保存下来的数据,通常会保存在文件、数据库或者是Hadoop(HDFS)中
收集完数据,我们就需要对数据进行加工,变成我们后面分析需要的格式,比如使用SQL进行处理,或者Python、R进行整合;我们再加工数据的同时,为了方便我们后面的分析,可能还需要增加一下自定义的变量,比如一些标志位,像“已消费(1),未消费(0)”;或者是一些离散变量,类似于区间段:

  • 消费金额较大用户(1)
  • 消费金额一般用户(2)
  • 消费金额较小用户(3)

3.4 数据分析

书中把数据分析按目的,分为两大类:“决策支持和自动化、最优化”。
其中,“决策支持”使用简单求和、交叉列表的方式分析,还会涉及预测模型;
“自动化、最优化”则涉及机器学习、构建算法。

3.5 解决对策

通过上面两种分析思路,我们需要针对分析的结果,来判断是否要采取对应的决策,不同的对策, 又会产生不同的沟通成本。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容