深入浅出数据分析 -读书笔记

在学了python之后，发现自己走入了一个误区，如果想做数据分析师，还是需要先了解数据分析师在实际生活中可以解决哪些场景，以及如何去解决领导或客户提出的问题，根据不同的场景，依托统计基础选择合适的分析方法解决问题才是最重要的，excel，sql，python，tableau都只是工具。目前在面对数据时，本人不知道如何去分析数据，因此读了这本书，梳理其中精华，希望能更快进入数据分析师这个岗位。

第1章：数据分析引言-分解数据

数据分析流程图

1. 数据分析流程

1）确定：通过与客户沟通，确定问题

2）分解：将问题划分为可管理、可解决的组块

3）评估：评估分解组块的关键就是比较

4）决策：将分析形成报表，供制定决策

2. 反思心智模型，开始新一轮分析

分析过程中的错误或不完整信息，会导致决策失误。而这些信息是源于个人对外界的假设和确信的观点，也就是心智模型。因此，需要尽量明确你的心智模型，仔细斟酌各类影响因素。更重要的是，要基于数据得出观点，而不是个人猜想。在进一步明确数据和信息后，可以按照上述的数据分析流程开始新一轮的分析啦！

第2章：实验-检验你的理论

咖啡销量下滑原因及应对策略分析

1. 咖啡销量下滑原因分析

1）提出问题：在过去半年里，星巴仕销量持续下降，原因是什么？

2）数据来源：市场客户调查，邀请客户对影响销量的五个因素（选址、咖啡温度、员工热情、咖啡价值、偏爱去处）进行打分。

3）数据分析：利用比较法得出，咖啡价值得分一落千丈！

4）得出结论：咖啡价值的下降导致销量下降。

问题来了！Soho区是一个富人区，区经理认为这里没有人认为星巴仕缺乏价值。哪里出现了问题？是观察分析法中的混杂因素!

混杂因素就是研究对象的个人差异，它们不是你试图进行比较的因素，但会导致分析结果的敏感性变差。本例中的混杂因素是店址。也就说，不同店址客户对五因素的评分倾向是不同的，比如Soho富人区的咖啡价值得分明显高于其他区域。因此，要分区域来重新审视数据，发现东岸区的价值感得分最低，Soho区则一切正常，其他区域在一定范围内波动。现在最重要的问题是，采取哪种策略能够有效提高销量？记得采用控制变量法，排除混杂因素！

2. 咖啡销量下滑策略分析

1）目的：验证哪种策略最有效，策略一为降价，策略二为游说顾客“星巴仕很有价值”；

2）分组：将大的地理区域分成小的地理区域，随机将这些微区域分成控制组和实验组；

3）实验：控制组维持现状一个月，实验组1降价一个月，实验组2游说顾客一个月；

4）结果：控制组与实验组1的营业收入持平，实验组2的收入立即上升。

第3章：最优化-寻找最大值

1. 利润最大化问题

我们的橡胶够生产500只橡皮鸭或400条橡皮鱼，我们的时间够用来生产400只橡皮鸭或300条橡皮鱼。如果想让产品在下个月上架销售，我们的产量都不会高于400只橡皮鸭和300条橡皮鱼。每只橡皮鸭的利润是5美元，每条橡皮鱼的利润是4美元，求如何安排橡皮鸭和橡皮鱼的产量才能使得利润最高？

解：设橡皮鸭数量为X只，橡皮鱼数量为Y条

目标函数：

约束条件：

求解工具：Excel的求解器（solver）

2. 按照分析目标校正假设

上述的利润最大化问题分析看似完整，但实际利润却跌穿地板！由于其约束条件对实际情况进行了简化，当缺失某一个重要的假设条件，分析结果就可能毁掉。而上述问题恰好忽略了人们的需求偏好，导致分析结果不尽人意。

现在，观察近年来橡皮鸭和橡皮鱼的销量情况，发现橡皮鱼的销量一般不超过50条。在完善约束条件后，重新求得最优解。

第4章：数据图形化-图形让你更精明

1) 画图前提：准备数据，若数据过于庞杂，只须记住目标，目光停留在和目标有关的数据上，无视其他。

2) 画图目的：数据图形化的根本在于正确比较，其意义在于图片中隐含的数据，而不是炫目的设计。

3) 画图进阶：图形多元化，优秀的图形都是多元图形，即对3个以上的变量进行比较。

4) 画图工具：R

第5章：假设检验-假设并非如此

1. 问题

电肤公司是一家手机“皮肤”制造商。手机巨头Podphone公司即将发布一款手机，时间待定。电肤公司必须在手机发布前的一个月开始生产手机皮肤，才能赶上手机销售的第一波。当前的任务是电肤公司何时生产新手机皮肤？

2. 搜集证据

通过搜集产品发布信息，梳理这些信息中体现的变量关系，分为正相关和负相关关系。

信息中的变量关系

3. 提出假设

新产品发布假设

4. 假设检验

1）假设检验的核心是证伪，即剔除无法证实的假设，排除错误假设。

根据资料可排除1和假设5

2）对于假设2-4，借助诊断法找出否定性最小的假设，判定哪个假设最强。

基于诊断法的假设判定

得出假设3为最强假设

3）新证据来了：Podphone公司召开了新手机打样庆祝会，新证据使得假设2变为最强假设！

4）根据最新分析结果采取行动吧！

第6章：贝叶斯统计-穿越第一关

1. 条件概率与贝叶斯规则—蜥蜴流感病毒案例

研究表明总人口中有1%的人患有蜥蜴流感。已知若某人已患蜥蜴流感，试验结果为阳性的概率为90%，若某人未患蜥蜴流感，试验结果为阳性的概率为9%。假定以1000人为基础进行计算：

蜥蜴流感病毒案例分析

2. 回忆贝叶斯公式：

这个公式看似复杂，但在实际应用中，n一般为2，也就是说把B划分为正反两面，情况就简化很多了。另一方面，要熟记一个公式：

,这个条件概率公式简单好记，应用广泛，且有助于理解贝叶斯公式！

条件概率形象化

第7章：主观概率-信念数字化

信念数字化与图形化

1. 问题

投资公司的分析师们对投资计划的分歧很大，分歧主要体现在六个方面：（1）俄罗斯下一季是否会补贴石油业？2）俄罗斯是否会收购欧航航空公司？3）越南今年是否会减税？4）越南今年是否会鼓励外国投资？5）印尼旅游业今年是否会翻身？6）印尼政府是否会投资生态旅游？

分析师们对这六个方面的判断不同，众说纷纭，争论越发激烈。他们对这六个假设的用词有：可能，极不可能，可能性更大，有可能，可能不，不可能。。。如何让概率用词更精确？分析师们的观点是否真的差异巨大？

2. 用主观概率体现信念

主观概率是指个人对某事的确认程度，一般用于预测孤立事件但缺乏可靠数据的情况下。现在，需要将各种说法转换为数据！

分析师们的猜想数据化

接着，可以用图形（如散点图）直观表现每一种说法的概率倾向。同时，可以用“标准偏差”分析数据点与平均值的差距。主观概率偏离平均值的标准偏差越大，分析师们在假设成立的可能性方面的分歧越大。

3. 新的消息改变初始概率

最新消息：俄罗斯宣布售出所有油田，称对商业失去了信心。这条新闻可能会导致投资价值大幅缩水，降低假设一的主观概率，另一方面，这个新闻可能只是俄罗斯的一种策略，实际上他们并不打算出售油田。接下来，要确定在得到这条消息的前提下，分析师们对假设一的概率会有什么变化？

贝叶斯规则是修正主观概率的好办法：H代表俄罗斯会（不会）补贴石油业，E代表新的证据。则：

拿到新的数据后，重新分析~

第8章：启发法-凭人类的天性做分析

1. 问题

邋遢集是由数据邦市市政府资助的一个非盈利团体，他们进行公开宣传，劝说人们不要乱扔垃圾。他们把最近的工作结果汇报给了市政府，但市政府需要知道垃圾量减少了多少，否则就会削减资金！

2．难题

难题是垃圾量的减少无法定量计算出来，没有一个统一的散乱垃圾计量模型。垃圾的定量计算看似走不通。

3. 方法

基于启发法的发散式思维

人们以极快速度作出的决定或不凭借任何数据作出的决定，往往靠的是直觉，直觉一般看到的只有一个选项。通过发散式思维的思考，即启发法，可以得出多个选项。现在用启发法确定用哪些变量分析能够更全面地描述邋遢集的绩效。

基于启发法的邋遢集绩效描述变量确定

站在市议员的角度考虑他们会如何评估邋遢集的工作，用启发法构思如下：

基于启发法的工作评估

在利用启发法确定重要因素后，搜集数据，包括环卫工人问卷、公众问卷等。给市议员一个定量的报告和回复。

第9-11章：加薪要求分析

第9章到11章都是围绕加薪问题展开地。第9章基于源数据来分析主动提出加薪要求是否有利于提高加薪幅度；第10章利用散点图和回归方程分析了提出多高的加薪幅度比较合适；第11章则对回归分析的误差和改善提出了建议。三章之间的关系如思维图所示，思维图下面则是对每一章重点的提炼。

加薪要求分析

第九章：直方图-数字的形状

1. 问题描述

年底了，星巴仕的员工希望加薪，但他们不确定是否应该主动提出加薪要求，想要通过研究进行加薪结果预测。现在手头有历年加薪记录的数据，包括员工的编号、得到的加薪幅度、性别、年份、是否提出过加薪等字段。

2. 数据处理

1）提取并汇总数据。即从总数据中提取信息，将数据分解成易于管理的较小数据块。在该例中，得出加薪幅度、性别、年份等有用字段。

2）数据图形化。直方图是一种功能强大的图形，它可以显示出数据点在数值范围内的分布情况。在该例中，直方图显示出了获得每种加薪幅度的有多少人。

3）直方图描绘工具。用R绘制加薪幅度的频数分布直方图，分析了不同年份的加薪幅度、不同性别的加薪幅度、是否主动提出过加薪要求下的加薪幅度等情况。

4）得出结论。对加薪数据的不同子集进行直方图分析后，看得出获得大幅度加薪全靠提要求。

第十章：回归-预测

1. 问题

在确定了要提出加薪之后，下一个关键问题是该提出多少的加薪幅度呢？员工需要一个“加薪计算器”来预测加薪幅度。

2. 基于散点图的回归分析

每一个员工的要求加薪幅度和实际加薪幅度是一个数据点，这些数据点可以画出散点图。在散点图中用回归线（最准确地贯穿数据点的一条线）来表现要求加薪与实际加薪之间的关系，并得出回归方程：

，其中，X代表要求加薪幅度，Y代表实际加薪幅度。

3. 基于回归方程的预测

上述的回归方程可以预测人们的实际加薪幅度，“加薪计算器”设计完成！

第十一章：误差-合理误差

1. 问题

员工根据回归方程的预测向老板提出加薪要求，但员工们收到的反馈却差异很大。A员工要求5%，结果加了10%；B员工要求8%，结果加了7%；C员工要求25%，结果加了0%。这是哪里出现了问题？回归方程是否靠谱？

2. 原因分析

不管多优秀的预测模型，都会存在偏差，我们把这种实际结果与预测结果之间的偏差叫做机会误差，又称为残差。而对残差的分析是优秀的统计模型的核心。首先我们分析残差存在的原因：

1）源数据不全面：我们是从源数据得出回归方程，源数据的“要求加薪幅度”字段并没有超过22%的例子。因此，该回归方程也不适用于要求加薪幅度超过22%的员工。问题描述里的C员工要求加薪幅度为25%，显然超出了模型的预测范围。

2）回归线的贴合程度差异：在加薪幅度低于10%的时候，该回归线与数据的贴合程度很高。而加薪幅度在10%到22%的区间，该回归线便与数据点有较大的偏移。因此，对于要求加薪幅度在10%以上的员工，该回归方程的预测准确度会降低。

3. 优化方法

1）定量地指出误差：我们需要一个统计值来体现数据点与回归线的平均偏移量。均方根误差描述的了回归线周围的分布情况，有了均方根误差，就能告诉客户实际结果与预测结果之间可能有多大差距。通过R计算均方根误差为2.5%，这时可以在回归方程下方备注：该公式只在加薪要求介于0%到22%之间时有效。大部分加薪结果都会落在高于或低于预测结果2.5%的范围内。

2）分割方程来管理误差：由于要求加薪在0%-10%之间的数据与回归线的重合程度较高，而10%以上的数据与回归线的贴合程度很低。可以以10%为分界线，建立两个回归方程，即：当要求加薪幅度低于10%，使用公式1

；当要求加薪幅度高于10%，使用公式2

,同时注明两个方程的误差范围。

第12章：关系数据库-你能关联么？

杂志销量与文章数量的关系分析

1. 问题描述

《数据邦新闻》杂志社想找出在每一期刊物上刊登文章的最优数量。

2. 问题分析

1）源数据获取：现有四张独立的电子表格，分别是销量（期号和销量）、期数（期号和出版日期）、文章（文章编号、期号、）、作者。他们之间是相互关联的。

2）关联比较对象：我们的目的是对比不同文章数量对销量的影响，因此，再数据库管理软件中，通过“期刊”表将“销量”表与“文章”表关联起来。

3）分析比较对象：利用散点图描述文章数和销量之间的关系。

第13章：整理数据-井然有序

深入浅出数据分析 -读书笔记

深入浅出数据分析 -读书笔记

相关阅读更多精彩内容

友情链接更多精彩内容