深入浅出数据分析 -读书笔记

在学了python之后,发现自己走入了一个误区,如果想做数据分析师,还是需要先了解数据分析师在实际生活中可以解决哪些场景,以及如何去解决领导或客户提出的问题,根据不同的场景,依托统计基础选择合适的分析方法解决问题才是最重要的,excel,sql,python,tableau都只是工具。目前在面对数据时,本人不知道如何去分析数据,因此读了这本书,梳理其中精华,希望能更快进入数据分析师这个岗位。

第1章:数据分析引言-分解数据

数据分析流程图

1. 数据分析流程

1)确定:通过与客户沟通,确定问题

2)分解:将问题划分为可管理、可解决的组块

3)评估:评估分解组块的关键就是比较

4)决策:将分析形成报表,供制定决策

2. 反思心智模型,开始新一轮分析

分析过程中的错误或不完整信息,会导致决策失误。而这些信息是源于个人对外界的假设和确信的观点,也就是心智模型。因此,需要尽量明确你的心智模型,仔细斟酌各类影响因素。更重要的是,要基于数据得出观点,而不是个人猜想。在进一步明确数据和信息后,可以按照上述的数据分析流程开始新一轮的分析啦!

第2章:实验-检验你的理论

咖啡销量下滑原因及应对策略分析

1. 咖啡销量下滑原因分析

1)提出问题:在过去半年里,星巴仕销量持续下降,原因是什么?   

2)数据来源:市场客户调查,邀请客户对影响销量的五个因素(选址、咖啡温度、员工热情、咖啡价值、偏爱去处)进行打分。

3)数据分析:利用比较法得出,咖啡价值得分一落千丈!

4)得出结论:咖啡价值的下降导致销量下降。

问题来了!Soho区是一个富人区,区经理认为这里没有人认为星巴仕缺乏价值。哪里出现了问题?是观察分析法中的混杂因素!

混杂因素就是研究对象的个人差异,它们不是你试图进行比较的因素,但会导致分析结果的敏感性变差。本例中的混杂因素是店址。也就说,不同店址客户对五因素的评分倾向是不同的,比如Soho富人区的咖啡价值得分明显高于其他区域。因此,要分区域来重新审视数据,发现东岸区的价值感得分最低,Soho区则一切正常,其他区域在一定范围内波动。现在最重要的问题是,采取哪种策略能够有效提高销量?记得采用控制变量法,排除混杂因素!

2. 咖啡销量下滑策略分析

1)目的:验证哪种策略最有效,策略一为降价,策略二为游说顾客“星巴仕很有价值”;

2)分组:将大的地理区域分成小的地理区域,随机将这些微区域分成控制组和实验组;

3)实验:控制组维持现状一个月,实验组1降价一个月,实验组2游说顾客一个月;

4)结果:控制组与实验组1的营业收入持平,实验组2的收入立即上升。

第3章:最优化-寻找最大值

1. 利润最大化问题

我们的橡胶够生产500只橡皮鸭或400条橡皮鱼,我们的时间够用来生产400只橡皮鸭或300条橡皮鱼。如果想让产品在下个月上架销售,我们的产量都不会高于400只橡皮鸭和300条橡皮鱼。每只橡皮鸭的利润是5美元,每条橡皮鱼的利润是4美元,求如何安排橡皮鸭和橡皮鱼的产量才能使得利润最高?

解:设橡皮鸭数量为X只,橡皮鱼数量为Y条

目标函数:

约束条件:

求解工具:Excel的求解器(solver)

2. 按照分析目标校正假设

上述的利润最大化问题分析看似完整,但实际利润却跌穿地板!由于其约束条件对实际情况进行了简化,当缺失某一个重要的假设条件,分析结果就可能毁掉。而上述问题恰好忽略了人们的需求偏好,导致分析结果不尽人意。

现在,观察近年来橡皮鸭和橡皮鱼的销量情况,发现橡皮鱼的销量一般不超过50条。在完善约束条件后,重新求得最优解。

第4章:数据图形化-图形让你更精明

1) 画图前提:准备数据,若数据过于庞杂,只须记住目标,目光停留在和目标有关的数据上,无视其他。

2) 画图目的:数据图形化的根本在于正确比较,其意义在于图片中隐含的数据,而不是炫目的设计。

3) 画图进阶:图形多元化,优秀的图形都是多元图形,即对3个以上的变量进行比较。

4) 画图工具:R

第5章:假设检验-假设并非如此

1. 问题

电肤公司是一家手机“皮肤”制造商。手机巨头Podphone公司即将发布一款手机,时间待定。电肤公司必须在手机发布前的一个月开始生产手机皮肤,才能赶上手机销售的第一波。当前的任务是电肤公司何时生产新手机皮肤?

2. 搜集证据

通过搜集产品发布信息,梳理这些信息中体现的变量关系,分为正相关和负相关关系。

信息中的变量关系

3. 提出假设

新产品发布假设

4. 假设检验

1)假设检验的核心是证伪,即剔除无法证实的假设,排除错误假设。

根据资料可排除1和假设5

2)对于假设2-4,借助诊断法找出否定性最小的假设,判定哪个假设最强。

基于诊断法的假设判定

得出假设3为最强假设

3)新证据来了:Podphone公司召开了新手机打样庆祝会,新证据使得假设2变为最强假设!

4)根据最新分析结果采取行动吧!

第6章:贝叶斯统计-穿越第一关

1. 条件概率与贝叶斯规则—蜥蜴流感病毒案例

研究表明总人口中有1%的人患有蜥蜴流感。已知若某人已患蜥蜴流感,试验结果为阳性的概率为90%,若某人未患蜥蜴流感,试验结果为阳性的概率为9%。假定以1000人为基础进行计算:

蜥蜴流感病毒案例分析

2. 回忆贝叶斯公式

这个公式看似复杂,但在实际应用中,n一般为2,也就是说把B划分为正反两面,情况就简化很多了。另一方面,要熟记一个公式:

,这个条件概率公式简单好记,应用广泛,且有助于理解贝叶斯公式!

条件概率形象化

第7章:主观概率-信念数字化

信念数字化与图形化

1. 问题

投资公司的分析师们对投资计划的分歧很大,分歧主要体现在六个方面:(1)俄罗斯下一季是否会补贴石油业?2)俄罗斯是否会收购欧航航空公司?3)越南今年是否会减税?4)越南今年是否会鼓励外国投资?5)印尼旅游业今年是否会翻身?6)印尼政府是否会投资生态旅游?

分析师们对这六个方面的判断不同,众说纷纭,争论越发激烈。他们对这六个假设的用词有:可能,极不可能,可能性更大,有可能,可能不,不可能。。。如何让概率用词更精确?分析师们的观点是否真的差异巨大?

2. 用主观概率体现信念

主观概率是指个人对某事的确认程度,一般用于预测孤立事件但缺乏可靠数据的情况下。现在,需要将各种说法转换为数据!

分析师们的猜想数据化

接着,可以用图形(如散点图)直观表现每一种说法的概率倾向。同时,可以用“标准偏差”分析数据点与平均值的差距。主观概率偏离平均值的标准偏差越大,分析师们在假设成立的可能性方面的分歧越大。

3. 新的消息改变初始概率

最新消息:俄罗斯宣布售出所有油田,称对商业失去了信心。这条新闻可能会导致投资价值大幅缩水,降低假设一的主观概率,另一方面,这个新闻可能只是俄罗斯的一种策略,实际上他们并不打算出售油田。接下来,要确定在得到这条消息的前提下,分析师们对假设一的概率会有什么变化?

贝叶斯规则是修正主观概率的好办法:H代表俄罗斯会(不会)补贴石油业,E代表新的证据。则:

拿到新的数据后,重新分析~

第8章:启发法-凭人类的天性做分析

1. 问题

邋遢集是由数据邦市市政府资助的一个非盈利团体,他们进行公开宣传,劝说人们不要乱扔垃圾。他们把最近的工作结果汇报给了市政府,但市政府需要知道垃圾量减少了多少,否则就会削减资金!

2.难题

难题是垃圾量的减少无法定量计算出来,没有一个统一的散乱垃圾计量模型。垃圾的定量计算看似走不通。

3. 方法

基于启发法的发散式思维

人们以极快速度作出的决定或不凭借任何数据作出的决定,往往靠的是直觉,直觉一般看到的只有一个选项。通过发散式思维的思考,即启发法,可以得出多个选项。现在用启发法确定用哪些变量分析能够更全面地描述邋遢集的绩效。

基于启发法的邋遢集绩效描述变量确定

站在市议员的角度考虑他们会如何评估邋遢集的工作,用启发法构思如下:

基于启发法的工作评估

在利用启发法确定重要因素后,搜集数据,包括环卫工人问卷、公众问卷等。给市议员一个定量的报告和回复。

第9-11章:加薪要求分析

第9章到11章都是围绕加薪问题展开地。第9章基于源数据来分析主动提出加薪要求是否有利于提高加薪幅度;第10章利用散点图和回归方程分析了提出多高的加薪幅度比较合适;第11章则对回归分析的误差和改善提出了建议。三章之间的关系如思维图所示,思维图下面则是对每一章重点的提炼。

加薪要求分析

第九章:直方图-数字的形状

1. 问题描述

年底了,星巴仕的员工希望加薪,但他们不确定是否应该主动提出加薪要求,想要通过研究进行加薪结果预测。现在手头有历年加薪记录的数据,包括员工的编号、得到的加薪幅度、性别、年份、是否提出过加薪等字段。

2. 数据处理

1)提取并汇总数据。即从总数据中提取信息,将数据分解成易于管理的较小数据块。在该例中,得出加薪幅度、性别、年份等有用字段。

2)数据图形化。直方图是一种功能强大的图形,它可以显示出数据点在数值范围内的分布情况。在该例中,直方图显示出了获得每种加薪幅度的有多少人。

3)直方图描绘工具。用R绘制加薪幅度的频数分布直方图,分析了不同年份的加薪幅度、不同性别的加薪幅度、是否主动提出过加薪要求下的加薪幅度等情况。

4)得出结论。对加薪数据的不同子集进行直方图分析后,看得出获得大幅度加薪全靠提要求。

第十章:回归-预测

1. 问题

在确定了要提出加薪之后,下一个关键问题是该提出多少的加薪幅度呢?员工需要一个“加薪计算器”来预测加薪幅度。

2. 基于散点图的回归分析

每一个员工的要求加薪幅度和实际加薪幅度是一个数据点,这些数据点可以画出散点图。在散点图中用回归线(最准确地贯穿数据点的一条线)来表现要求加薪与实际加薪之间的关系,并得出回归方程:

,其中,X代表要求加薪幅度,Y代表实际加薪幅度。

3. 基于回归方程的预测

上述的回归方程可以预测人们的实际加薪幅度,“加薪计算器”设计完成!

第十一章:误差-合理误差

1. 问题

员工根据回归方程的预测向老板提出加薪要求,但员工们收到的反馈却差异很大。A员工要求5%,结果加了10%;B员工要求8%,结果加了7%;C员工要求25%,结果加了0%。这是哪里出现了问题?回归方程是否靠谱?

2. 原因分析

不管多优秀的预测模型,都会存在偏差,我们把这种实际结果与预测结果之间的偏差叫做机会误差,又称为残差。而对残差的分析是优秀的统计模型的核心。首先我们分析残差存在的原因:

1)源数据不全面:我们是从源数据得出回归方程,源数据的“要求加薪幅度”字段并没有超过22%的例子。因此,该回归方程也不适用于要求加薪幅度超过22%的员工。问题描述里的C员工要求加薪幅度为25%,显然超出了模型的预测范围。

2)回归线的贴合程度差异:在加薪幅度低于10%的时候,该回归线与数据的贴合程度很高。而加薪幅度在10%到22%的区间,该回归线便与数据点有较大的偏移。因此,对于要求加薪幅度在10%以上的员工,该回归方程的预测准确度会降低。

3. 优化方法

1)定量地指出误差:我们需要一个统计值来体现数据点与回归线的平均偏移量。均方根误差描述的了回归线周围的分布情况,有了均方根误差,就能告诉客户实际结果与预测结果之间可能有多大差距。通过R计算均方根误差为2.5%,这时可以在回归方程下方备注:该公式只在加薪要求介于0%到22%之间时有效。大部分加薪结果都会落在高于或低于预测结果2.5%的范围内。

2)分割方程来管理误差:由于要求加薪在0%-10%之间的数据与回归线的重合程度较高,而10%以上的数据与回归线的贴合程度很低。可以以10%为分界线,建立两个回归方程,即:当要求加薪幅度低于10%,使用公式1

;当要求加薪幅度高于10%,使用公式2

,同时注明两个方程的误差范围。

第12章:关系数据库-你能关联么?

杂志销量与文章数量的关系分析

1.  问题描述

《数据邦新闻》杂志社想找出在每一期刊物上刊登文章的最优数量。

2.  问题分析

1)源数据获取:现有四张独立的电子表格,分别是销量(期号和销量)、期数(期号和出版日期)、文章(文章编号、期号、)、作者。他们之间是相互关联的。

2)关联比较对象:我们的目的是对比不同文章数量对销量的影响,因此,再数据库管理软件中,通过“期刊”表将“销量”表与“文章”表关联起来。

3)分析比较对象:利用散点图描述文章数和销量之间的关系。

第13章:整理数据-井然有序

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容