在学了python之后,发现自己走入了一个误区,如果想做数据分析师,还是需要先了解数据分析师在实际生活中可以解决哪些场景,以及如何去解决领导或客户提出的问题,根据不同的场景,依托统计基础选择合适的分析方法解决问题才是最重要的,excel,sql,python,tableau都只是工具。目前在面对数据时,本人不知道如何去分析数据,因此读了这本书,梳理其中精华,希望能更快进入数据分析师这个岗位。
第1章:数据分析引言-分解数据
数据分析流程图
1. 数据分析流程
1)确定:通过与客户沟通,确定问题
2)分解:将问题划分为可管理、可解决的组块
3)评估:评估分解组块的关键就是比较
4)决策:将分析形成报表,供制定决策
2. 反思心智模型,开始新一轮分析
分析过程中的错误或不完整信息,会导致决策失误。而这些信息是源于个人对外界的假设和确信的观点,也就是心智模型。因此,需要尽量明确你的心智模型,仔细斟酌各类影响因素。更重要的是,要基于数据得出观点,而不是个人猜想。在进一步明确数据和信息后,可以按照上述的数据分析流程开始新一轮的分析啦!
第2章:实验-检验你的理论
咖啡销量下滑原因及应对策略分析
1. 咖啡销量下滑原因分析
1)提出问题:在过去半年里,星巴仕销量持续下降,原因是什么?
2)数据来源:市场客户调查,邀请客户对影响销量的五个因素(选址、咖啡温度、员工热情、咖啡价值、偏爱去处)进行打分。
3)数据分析:利用比较法得出,咖啡价值得分一落千丈!
4)得出结论:咖啡价值的下降导致销量下降。
问题来了!Soho区是一个富人区,区经理认为这里没有人认为星巴仕缺乏价值。哪里出现了问题?是观察分析法中的混杂因素!
混杂因素就是研究对象的个人差异,它们不是你试图进行比较的因素,但会导致分析结果的敏感性变差。本例中的混杂因素是店址。也就说,不同店址客户对五因素的评分倾向是不同的,比如Soho富人区的咖啡价值得分明显高于其他区域。因此,要分区域来重新审视数据,发现东岸区的价值感得分最低,Soho区则一切正常,其他区域在一定范围内波动。现在最重要的问题是,采取哪种策略能够有效提高销量?记得采用控制变量法,排除混杂因素!
2. 咖啡销量下滑策略分析
1)目的:验证哪种策略最有效,策略一为降价,策略二为游说顾客“星巴仕很有价值”;
2)分组:将大的地理区域分成小的地理区域,随机将这些微区域分成控制组和实验组;
3)实验:控制组维持现状一个月,实验组1降价一个月,实验组2游说顾客一个月;
4)结果:控制组与实验组1的营业收入持平,实验组2的收入立即上升。
第3章:最优化-寻找最大值
1. 利润最大化问题
我们的橡胶够生产500只橡皮鸭或400条橡皮鱼,我们的时间够用来生产400只橡皮鸭或300条橡皮鱼。如果想让产品在下个月上架销售,我们的产量都不会高于400只橡皮鸭和300条橡皮鱼。每只橡皮鸭的利润是5美元,每条橡皮鱼的利润是4美元,求如何安排橡皮鸭和橡皮鱼的产量才能使得利润最高?
解:设橡皮鸭数量为X只,橡皮鱼数量为Y条
目标函数:
约束条件:
求解工具:Excel的求解器(solver)
2. 按照分析目标校正假设
上述的利润最大化问题分析看似完整,但实际利润却跌穿地板!由于其约束条件对实际情况进行了简化,当缺失某一个重要的假设条件,分析结果就可能毁掉。而上述问题恰好忽略了人们的需求偏好,导致分析结果不尽人意。
现在,观察近年来橡皮鸭和橡皮鱼的销量情况,发现橡皮鱼的销量一般不超过50条。在完善约束条件后,重新求得最优解。
第4章:数据图形化-图形让你更精明
1) 画图前提:准备数据,若数据过于庞杂,只须记住目标,目光停留在和目标有关的数据上,无视其他。
2) 画图目的:数据图形化的根本在于正确比较,其意义在于图片中隐含的数据,而不是炫目的设计。
3) 画图进阶:图形多元化,优秀的图形都是多元图形,即对3个以上的变量进行比较。
4) 画图工具:R
第5章:假设检验-假设并非如此
1. 问题
电肤公司是一家手机“皮肤”制造商。手机巨头Podphone公司即将发布一款手机,时间待定。电肤公司必须在手机发布前的一个月开始生产手机皮肤,才能赶上手机销售的第一波。当前的任务是电肤公司何时生产新手机皮肤?
2. 搜集证据
通过搜集产品发布信息,梳理这些信息中体现的变量关系,分为正相关和负相关关系。
信息中的变量关系
3. 提出假设
新产品发布假设
4. 假设检验
1)假设检验的核心是证伪,即剔除无法证实的假设,排除错误假设。
根据资料可排除1和假设5
2)对于假设2-4,借助诊断法找出否定性最小的假设,判定哪个假设最强。
基于诊断法的假设判定
得出假设3为最强假设
3)新证据来了:Podphone公司召开了新手机打样庆祝会,新证据使得假设2变为最强假设!
4)根据最新分析结果采取行动吧!
第6章:贝叶斯统计-穿越第一关
1. 条件概率与贝叶斯规则—蜥蜴流感病毒案例
研究表明总人口中有1%的人患有蜥蜴流感。已知若某人已患蜥蜴流感,试验结果为阳性的概率为90%,若某人未患蜥蜴流感,试验结果为阳性的概率为9%。假定以1000人为基础进行计算:
蜥蜴流感病毒案例分析
2. 回忆贝叶斯公式:
这个公式看似复杂,但在实际应用中,n一般为2,也就是说把B划分为正反两面,情况就简化很多了。另一方面,要熟记一个公式:
,这个条件概率公式简单好记,应用广泛,且有助于理解贝叶斯公式!
条件概率形象化
第7章:主观概率-信念数字化
信念数字化与图形化
1. 问题
投资公司的分析师们对投资计划的分歧很大,分歧主要体现在六个方面:(1)俄罗斯下一季是否会补贴石油业?2)俄罗斯是否会收购欧航航空公司?3)越南今年是否会减税?4)越南今年是否会鼓励外国投资?5)印尼旅游业今年是否会翻身?6)印尼政府是否会投资生态旅游?
分析师们对这六个方面的判断不同,众说纷纭,争论越发激烈。他们对这六个假设的用词有:可能,极不可能,可能性更大,有可能,可能不,不可能。。。如何让概率用词更精确?分析师们的观点是否真的差异巨大?
2. 用主观概率体现信念
主观概率是指个人对某事的确认程度,一般用于预测孤立事件但缺乏可靠数据的情况下。现在,需要将各种说法转换为数据!
分析师们的猜想数据化
接着,可以用图形(如散点图)直观表现每一种说法的概率倾向。同时,可以用“标准偏差”分析数据点与平均值的差距。主观概率偏离平均值的标准偏差越大,分析师们在假设成立的可能性方面的分歧越大。
3. 新的消息改变初始概率
最新消息:俄罗斯宣布售出所有油田,称对商业失去了信心。这条新闻可能会导致投资价值大幅缩水,降低假设一的主观概率,另一方面,这个新闻可能只是俄罗斯的一种策略,实际上他们并不打算出售油田。接下来,要确定在得到这条消息的前提下,分析师们对假设一的概率会有什么变化?
贝叶斯规则是修正主观概率的好办法:H代表俄罗斯会(不会)补贴石油业,E代表新的证据。则:
拿到新的数据后,重新分析~
第8章:启发法-凭人类的天性做分析
1. 问题
邋遢集是由数据邦市市政府资助的一个非盈利团体,他们进行公开宣传,劝说人们不要乱扔垃圾。他们把最近的工作结果汇报给了市政府,但市政府需要知道垃圾量减少了多少,否则就会削减资金!
2.难题
难题是垃圾量的减少无法定量计算出来,没有一个统一的散乱垃圾计量模型。垃圾的定量计算看似走不通。
3. 方法
基于启发法的发散式思维
人们以极快速度作出的决定或不凭借任何数据作出的决定,往往靠的是直觉,直觉一般看到的只有一个选项。通过发散式思维的思考,即启发法,可以得出多个选项。现在用启发法确定用哪些变量分析能够更全面地描述邋遢集的绩效。
基于启发法的邋遢集绩效描述变量确定
站在市议员的角度考虑他们会如何评估邋遢集的工作,用启发法构思如下:
基于启发法的工作评估
在利用启发法确定重要因素后,搜集数据,包括环卫工人问卷、公众问卷等。给市议员一个定量的报告和回复。
第9-11章:加薪要求分析
第9章到11章都是围绕加薪问题展开地。第9章基于源数据来分析主动提出加薪要求是否有利于提高加薪幅度;第10章利用散点图和回归方程分析了提出多高的加薪幅度比较合适;第11章则对回归分析的误差和改善提出了建议。三章之间的关系如思维图所示,思维图下面则是对每一章重点的提炼。
加薪要求分析
第九章:直方图-数字的形状
1. 问题描述
年底了,星巴仕的员工希望加薪,但他们不确定是否应该主动提出加薪要求,想要通过研究进行加薪结果预测。现在手头有历年加薪记录的数据,包括员工的编号、得到的加薪幅度、性别、年份、是否提出过加薪等字段。
2. 数据处理
1)提取并汇总数据。即从总数据中提取信息,将数据分解成易于管理的较小数据块。在该例中,得出加薪幅度、性别、年份等有用字段。
2)数据图形化。直方图是一种功能强大的图形,它可以显示出数据点在数值范围内的分布情况。在该例中,直方图显示出了获得每种加薪幅度的有多少人。
3)直方图描绘工具。用R绘制加薪幅度的频数分布直方图,分析了不同年份的加薪幅度、不同性别的加薪幅度、是否主动提出过加薪要求下的加薪幅度等情况。
4)得出结论。对加薪数据的不同子集进行直方图分析后,看得出获得大幅度加薪全靠提要求。
第十章:回归-预测
1. 问题
在确定了要提出加薪之后,下一个关键问题是该提出多少的加薪幅度呢?员工需要一个“加薪计算器”来预测加薪幅度。
2. 基于散点图的回归分析
每一个员工的要求加薪幅度和实际加薪幅度是一个数据点,这些数据点可以画出散点图。在散点图中用回归线(最准确地贯穿数据点的一条线)来表现要求加薪与实际加薪之间的关系,并得出回归方程:
,其中,X代表要求加薪幅度,Y代表实际加薪幅度。
3. 基于回归方程的预测
上述的回归方程可以预测人们的实际加薪幅度,“加薪计算器”设计完成!
第十一章:误差-合理误差
1. 问题
员工根据回归方程的预测向老板提出加薪要求,但员工们收到的反馈却差异很大。A员工要求5%,结果加了10%;B员工要求8%,结果加了7%;C员工要求25%,结果加了0%。这是哪里出现了问题?回归方程是否靠谱?
2. 原因分析
不管多优秀的预测模型,都会存在偏差,我们把这种实际结果与预测结果之间的偏差叫做机会误差,又称为残差。而对残差的分析是优秀的统计模型的核心。首先我们分析残差存在的原因:
1)源数据不全面:我们是从源数据得出回归方程,源数据的“要求加薪幅度”字段并没有超过22%的例子。因此,该回归方程也不适用于要求加薪幅度超过22%的员工。问题描述里的C员工要求加薪幅度为25%,显然超出了模型的预测范围。
2)回归线的贴合程度差异:在加薪幅度低于10%的时候,该回归线与数据的贴合程度很高。而加薪幅度在10%到22%的区间,该回归线便与数据点有较大的偏移。因此,对于要求加薪幅度在10%以上的员工,该回归方程的预测准确度会降低。
3. 优化方法
1)定量地指出误差:我们需要一个统计值来体现数据点与回归线的平均偏移量。均方根误差描述的了回归线周围的分布情况,有了均方根误差,就能告诉客户实际结果与预测结果之间可能有多大差距。通过R计算均方根误差为2.5%,这时可以在回归方程下方备注:该公式只在加薪要求介于0%到22%之间时有效。大部分加薪结果都会落在高于或低于预测结果2.5%的范围内。
2)分割方程来管理误差:由于要求加薪在0%-10%之间的数据与回归线的重合程度较高,而10%以上的数据与回归线的贴合程度很低。可以以10%为分界线,建立两个回归方程,即:当要求加薪幅度低于10%,使用公式1
;当要求加薪幅度高于10%,使用公式2
,同时注明两个方程的误差范围。
第12章:关系数据库-你能关联么?
杂志销量与文章数量的关系分析
1. 问题描述
《数据邦新闻》杂志社想找出在每一期刊物上刊登文章的最优数量。
2. 问题分析
1)源数据获取:现有四张独立的电子表格,分别是销量(期号和销量)、期数(期号和出版日期)、文章(文章编号、期号、)、作者。他们之间是相互关联的。
2)关联比较对象:我们的目的是对比不同文章数量对销量的影响,因此,再数据库管理软件中,通过“期刊”表将“销量”表与“文章”表关联起来。
3)分析比较对象:利用散点图描述文章数和销量之间的关系。
第13章:整理数据-井然有序