《深入浅出数据分析》

分析师好比侦探，总有一些秘密等着他们去发现，这正是数据分析的乐趣所在。

1. 《深入浅出数据分析》

本书的作者是迈克尔·米尔顿（Michael Milton，美国），拥有新弗洛里达学院哲学学位以及耶鲁大学宗教伦理学位。他将自己的大半职业生涯献给了非营利性机构，帮助它们分析和处理从赞助人那里收集来的数据，提高融资能力。迈克尔.米尔顿博览群书，但走出图书馆和书店，人们会看到他在跑步、摄影，以及亲手酿制啤酒。

《深入浅出数据分析》以类似“章回小说”的活泼形式，告诉我们如何发现和解密数据在日常生活中的作用，以及系统化的数据分析对制定决策多么有用。

《深入浅出数据分析》

如果下面的问题全部答“对！”，那么这本书适合你！

你认为，数据中隐含了无穷的智慧，需要有合适的方法，来利用这些智慧，对吗？

你想学习、理解和记忆如何创建靓丽的图形、试验假设条件、进行预测或整理混乱的数据，对吗？

你喜欢“创意十足、引人入胜的演讲”胜于“枯噪、无聊的学术报告”，对吗？

但，如果以下问题只要有一个回答“是”，那么本书与你无缘！

你惧怕尝试新事物，宁可用直观感觉来描述客观世界，是吗？

你从未使用过Excel，是吗？

你是一个经验老道的数据分析师吗，正在调查数据分析领域最前沿的课题，是吗？

2. 读书目的

购买、并阅读这本书的目的，是想解决如下的问题：

为什么要学习数据分析？
数据分析的基本步骤是什么？
如何检验数据分析成果的正确性？
关于最优化，有何启发？
什么是假设检验？
什么是贝叶斯统计？
什么是主观概率？
什么是启发法？
什么是回归预测？
如何解释和管理误差？
有哪些图形化展示数据的技巧？

3. 读书笔记

3.1 为什么要学习数据分析？

数据无处不在，这已经是不争的事实。除此之外，我在公司从事IT工作还有一些切身体会：

数据量越来越大。2000年时，上网速度是KB算的，一个典型的应用服务其数据库是按GB算的。而现在，上网速度是按GB算的，典型应用服务的数据量最小单位都是TB。
数据类型越来越丰富。公司业务横向拓展、纵向细分，带来了丰富多样的数据类型。

如今，不管学没学过数据分析，很多岗位在日常工作中都要分析数据、得到决策。我想，掌握一些数据分析技能，从而知道：

如何处理所有的数据材料；
如何分解和构建复杂的问题和数据集；
如何将原始数据转变成推进现实工作的妙策。

数据分析师能够牢牢把握各种问题的要害、指明正确的方向。

3.2 数据分析的基本步骤是什么？

数据分析流程

优秀的数据分析师同时也是优秀的沟通者。...未明确问题或目标就进行数据分析，就如同未定下目的地就上路旅行一样。...所以，与你的客户沟通，了解越深，你的分析越有可能派上用场。

将大问题划分为小问题：你无法直接回答大问题，但是，通过回答从大问题分解出来的小问题，你就可以找到大问题的答案。

进行有效的比较，是数据分析的核心。

你对外界的假设和你确定的观点，就是你的心智模型。

让自己介入分析的意思是：做出自己的明确假设，并且以自己的信用为自己的结论做担保。所以，在撰写最终报告的时候，一定要提到你自己，这样客户才有信心。

除非将分析形成报表供制定决策，否则分析将毫无用处。

3.3 如何检验数据分析成果的正确性？

根据数据分析的结论做决策，但为了避免决策失误，应先做小面积的实验。所以，科学的实验可以检验分析成果的正确性。

做个好实验

分组比较的方法普遍用于临床医学上。一种新药有没有疗效，除非做对照实验，否则无法确定用药的治疗是否比不用药的治疗更有效，甚至还会有更大的副作用危害。

混杂因素就是研究对象的个体差异，也可以称为噪音。它们不是你试图进行比较的因素，最终会导致分析结果的敏感度变差。

做到什么程度才算查清了混杂因素？与其说是科学，不如说是艺术。你不妨就自己正在研究的问题问自己一些常识性问题，借此想象哪些变量可能会影响你的分析结果。正如数据分析和统计学中的各种手段一样，无论你的量化技术多么出神入化，真正的重点却永远在于：分析结论要有意义。

3.4 关于最优化，有何启发？

所谓最优化，就是借助线性代数求解最大值（或最小值）。在以往的工作经验中，我接触过“利润最大化、排班”等需求，为此使用过GLPK、Gurobi等线性规划工具箱。虽然期间收获不小，但始终有一个问题困扰大家，即：用户对最优化模型的输出成果不甚满意。

最优化模型

你的假设立足于不断变化的实际情况。所以，接纳“不完美及实际情况在不断变化”的事实，就能理解“最优化模型只是参考，不是一劳永逸的万能钥匙”。...模型现在是在起作用，但可能会突然失灵。你需要做好准备，以便在必要的时候重新构建分析方法，反复不断地进行构建正是分析师的工作。

在本书中，介绍了使用excel自带的功能来解决最优化问题的案例。这对于小数据集来说够用，但如果数据集较大，建议使用专业的线性规划工具。

3.5 什么是假设检验？

曾经朋友们讨论到一个话题，即：学习科技知识，有何用？答案是预测未来。就拿“数据分析”来说，其结果用于决策，难道决策不就是预测未来吗？掌握并运用项目管理知识，把工作目标分解为合理的任务计划，说到底也是预测未来。

如何预测未来？关于这个话题，本书用一个“手机壳生产商预测新手机何时上市”的案例来讲解假设检验、证伪法的知识。

关键的知识点是：

从各种渠道收集消息（注意，消息也是一种数据）；
书中列举的关注消息有：经济形势（会影响消费者支出意愿）、零配件供货商产量（会影响新品手机的产量）、手机生产商的竞争对手的近期活动（会影响手机生产商如何应对竞争）等等；
基于收集到的情报，确定它们与想预测目标的正负关系；
对分析模型进行假设检验，而且要使用证伪法，回避满意法。

并非只有数字表格才叫做数据。只要证据能够帮助你按照强弱程度对假设进行排列，它就具有诊断性。

若一种变量增大意味着另一种变量也增大，则为正相关，反之为负相关。

请勿试图选出最合理的假设，只需剔除无法证实的假设——这就是假设检验的基础：证伪。

满意法的严重问题是：当人们在未对其它假设进行透彻分析的情况下选取某种假设时，往往会坚持这个假设，即使反面证据堆积如山也往往视而不见。证伪法则让人们对各种假设感觉更敏锐，从而防止掉入认知陷阱。

现实世界中的各种原因呈现网络关系，而非线性关系。线性等于直觉，容易忽略其它信息。在现实世界里，各种原因在相关变量构成的网络中传导，你的模型怎么可能独善其身呢？作为一位分析师，你的视野要比这个简单的模型开阔才行，要渴望看出因果关系网络。

优秀分析师的理想是找到复杂问题的非直觉答案。你会愿意聘用一个思想保守的数据分析师吗？如果客户真正有兴趣从数据中挖掘一些新信息，就会寻觅能想人所不能想的人才。

分析师们一个很好的经验法则是：当你开始怀疑因果关系的走向时，请进行反向思考，看看结果会怎么样。

假设检验，是一种根据情报预测未来的方法。难度在于：收集情报的多少、以及情报的准确性。物价会不会上涨？股票是升还是降？貌似都可以用这个方法，但在这些领域内我们收集情报的能力远远低于专业咨询公司、智库。尽管如此，仍然值得掌握假设检验、证伪法，因为在自己专业从事的业务领域内，我们可以做得比较专业。

3.6 什么是贝叶斯统计？

前面介绍的假设检验、证伪法，可以处理异质数据，但如果碰到直接概率问题，就要使用贝叶斯统计了。贝叶斯概率准则提供了一种利用已知概率来估算未知概率的有效方法，其基础公式是：

P(A | B) = P(B | A) * P(A) / P(B)

其中，P(A | B)的解读为：B中出现A的概率。

关于贝叶斯概率的入门案例，可以参考以前整理的《机器学习实战》读书笔记4。

3.7 什么是主观概率？

主观概率是一种将严谨融入直觉的简便方法，结合标准偏差来评估数据的分布。

其实我们遇到过主观概率的实际应用，如：
用户在社交平台上对我们的移动客户端评价，有激烈的说“非常难用”、有敷衍的说“尚可忍受”、有委婉的说“建议改进”。但如果去联络这些用户，就会发现，他们只是表达情绪的激烈程度不一样，但都还会继续使用我们的移动客户端。那么如何更精确的收集用户的意向呢？答案就是问卷调查。

口语表达上的概率用词有：可能、极不可能、可能性更大、有可能、可能不、不可能、可能会、肯定、大有机会...。不同的人，对这些概率用词的情绪感觉不同，A说的非常有可能与B说的完全不可能，也许都想表达30%的概率。

如果用一个数字形式的概率来表示自己对某事的确认程度，所用的就是主观概率。...主观概率是对分歧内容和分歧大小的一种精确规范，可以避免表达不当带来的矛盾激化，从而让数据分析师抓住问题焦点，进而解决问题。

主观概率是根据规律进行分析的巧妙方法，尤其是在预测孤立事件，但缺乏相同条件下的历史经验的情况下。

标准偏差度量的是典型的分析点与数据集平均值的差距。偏差越大，表明分歧也越大。

3.8 什么是启发法？

你是如何做决定的？

凭冲动做决定（直觉）？

还是凭几个精心选取的关键数据做决定（启发法）？

或是构建一套包含所有变量的模型，然后得出最优解（最优化）？

以上答案可能都对，但这些答案却代表完全不同的思维模式，认识到这一点很重要。... 大多数思维活动都是启发式的，最优化是一种理想境界，启发法是从直觉走向最优化的桥梁。

忽视整个系统而只关心一个变量是不对的，但关注所有数据进行分析，艰深耗时。精心选择与问题相关的部分数据，然后根据它们对整个系统做出结论，这就是在使用启发法。

工作中，面对销售量统计图，你如何解释销量上升的原因？可能很难精确解释，因为影响销量的因素太多了，如：

经济回暖，人们愿意消费了；
现在是本行业的销售旺季；
最近的一个公司宣传上了热搜；
投放了一个好产品；
支撑在线电商的系统做了优化；
合作伙伴不抖动了；
领导以身作则，带领大家攻坚；
...

要对所有因素去分析太难了，甚至连搜集数据都做不到。但可以挑选几个关键因素进行分析。记住：我们无法证明改善都是我们的功劳，但通过分析结果有理由相信，我们的付出造成了这些改善。

3.9 什么是回归预测？

本书中讲解的是线性回归，入门案例可以参考以前整理的《机器学习实战》读书笔记8。

线性回归

使用已有的数据集可以构建回归方程式，进而使用该方程式预测未来。但要注意，回归方程式是有适用范围的。内插法对数据范围内的数值进行预测，很准确，这是回归法的目的。预测数据范围外的数值，称为外插法，很不准确。你必须把回归方程式的适用范围告诉用户。

只要数据呈现正态分布，大量高效而简单的统计方法就能派上用场。...如果直方图上显示有多于一个的峰值，且你想弄明白为何不是正态分布的，那么就可以划分数据子集，重新绘制多个直方图、找到原因。

3.10 如何解释和管理误差？

预测很少不偏不倚，这种实际结果与预测结果之间的偏差，叫机会误差，统计学中又称为残差。

预测有失精准并不稀奇。不过，如果在进行预测的时候指出误差范围，你和你的客户就不仅能知道平均预测值，还能知道该误差造成的典型偏差。指出误差可以让预测更全面，可信度更高。

用均方根误差定量表示残差分布。

分组，减少回归误差

将数据分拆为几个组称为分割，分割的根本目的是管理误差。如果为几个分组分别创建预测模型，比单独一个模型更能减小误差，则应进行分割。

优秀的归回分析兼具监解释功能和预测功能。如果号称零误差，那就是表明没有预测功能。这也称为过拟合。

3.11 有哪些图形化展示数据的技巧？

数据可视化：创建优秀数据图形的第一要务就是促使用户谨慎思考并制定正确决策，优秀的数据分析从始至终都离不开“用数据思考”。

优秀数据图表的特点：

展示了数据；

做了高明的比较；

展示了多个变量；

美观。

如何选择图表类型？

数据分析师喜欢用散点图发现因果关系，即一个变量影响另一个变量的关系。通常用散点图的X轴代表自变量，用Y轴代表因变量。

柱状图（直方图）能够迅速二有效地汇总数据，用于度量数据的分布、差异、集中趋势等。

如果数据图表能对每个数据的三个以上的变量进行展示，这个图表就是多元的。尽量让图形多元化最有可能促成最有效的比较。

我以前习惯用一个图表来解释数据，其实完全可以并列两个图表进行对比展示。如：一个网站的浏览次数、浏览时长、回头率与营业额的关系，都做在一个图表中有难度、且不够美观。那么可以分别做成3个图表，但可以放在一起展示。

当你描述你的数据图表时，需要论述可相互换用的两种因果模型或图解。能完成这个任务说明你非常公正：让客户知道你不仅会展示自己最喜欢的一面，还会彻头彻尾地考虑自己提出的原理中可能存在的问题点。

激发制图灵感、提高制图能力的渠道：

学习大师的著作，如读数据图形化领域权威Edward Tufte的著作；
看到制作精良的图表案例，用心的收集下来（有同事在这方便比我做得好）。

4. 收获与行动

收获知识、付出行动、体现价值

4.1 啊哈

此处收集了书中让我眼前一亮的句子。

考虑不确定因素、盲点会让人感觉不爽，但回报显著，因为了解自己的知识缺陷非常重要。数据分析也是如此，“反查”方法会揭示出未知信息，而不是已知信息。

千万要保存原始数据，避免进行任何数据处理。即使是最好的数据分析师也会失误，必须保留将工作结果与原始数据进行比较的机会。

对于分析来说，大量的、准确的数据是好的开头。但数据分析有一个不可告人的秘密——到手的数据往往算不上井井有条，数据分析师花在数据整理上的时间多过数据分析上的时间。所以擅长使用数据处理工具、拥有对海量数据进行清洗的能力非常重要。

免不了要报告坏消息是数据分析师工作的一部分。不过，同样的消息却可以用不同的方式来表达。顶级数据分析师懂得妥当地报告有可能令人沮丧的消息。

我们都碰到过在经济上、认知上很费力的刁钻问题。对于这类棘手的问题，人们天生的反应就是答非所问，这实属及其正常、及其人性的现象。

数据分析的根本在于：妥善分解问题、为数据套上适当的心智模型和统计模型、做出正确的判断，但并不保证次次得到精确的答案。

4.2 下一步行动：实操本书中的例子

本书每个章节的案例都非常精彩，同时还提供了原始数据下载的地址。看懂了是一回事，自己去操作一次更好。

4.3 下一步行动：收集制作精良的数据图表

有些人更具有设计图形报表的天赋，可以向他们的成果学习。在阅读出版物时，关注技高一筹的作品，保留下来，思考它好在哪里，可以提高自己制作数据报表的技能。

4.4 下一步行动：学习统计学知识

许多数据分析著作其实就是统计学著作，因为统计学领域拥有的大量数据分析技术对数据分析及其重要。统计知识越渊博，分析工作越有可能取得辉煌成就。

4.5 拓展阅读

在本书中提到或引用了如下书籍：

《深入浅出统计学》，道恩·格里菲思
《出色的证据》，Edward Tufte

现实世界非常复杂，因此我们用心智模型来理解现实。心智模型可能是一些与生俱来的先天禀赋，也可能是后天学会的理论，不管是哪种情况，都会大大影响你对数据的解释。