数据分析基础复习笔记

01：平均值

说到平均值，就有算术平均值、几何平均值、平方平均值、调和平均值、加权平均值，当谈论到平均值，想一想说的是哪一种平均值，即看一看数据的构成情况。

平均值容易受到极端值的影响。大多数情况下，无法客观准确地反映数据整体情况。

例如，整体平均值是在数据呈均匀分布或者正态分布的情况下才会有意义，如果忽略整个数据的分布情况，只提平均值，其实是没有意义的。

整体平均值不能代表各分组情况，分组结论和整体平均值结论可能会大相径庭。

辛普森悖论，是 1951 年由 E.H. 辛普森提出的，简单来说就是，在分组比较中都占优势的一方，有的时候在总评中反而是失势的一方。

辛普森悖论的启示：每次小范围内的输赢，与整体上的输赢没有太大的直接关系。

当你不被大部分人所理解时，有可能是因为你选的路是一条少数人走的路。平均值和辛普森悖论告诉我们要抓大放小，不要因为某一个单项优势就洋洋得意，也不要因为局部失败就一蹶不振。生活，要有一颗平常心，我们的目标是让我们这一生的“人生平均值”逐步提高。

02：大数定律与赌徒谬误

大数定律是由瑞士数学家雅各布·伯努利提出来并验证的，核心逻辑是，当随机事件发生的次数足够多时，发生的频率会趋近于预期的概率。

小数定律是科学家阿莫斯·特沃斯基等人在研究“赌徒谬误”时做出的一个总结，赌徒谬误（Gambler's Fallacy）亦称为蒙地卡罗谬误，是一种错误的信念，以为随机序列中一个事件发生的机会率与之前发生的事件有关，即其发生的机会率会随着之前没有发生该事件的次数而上升。如重复抛一个公平硬币，而连续多次抛出反面朝上，赌徒可能错误地认为，下一次抛出正面的机会会较大。

鸡汤：任何时刻都不要放弃自己的追求，人生只有努力才是向上的，这才是你一生的“大数定律”。

“慎始敬终”。“慎始”指的是要想清楚，有没有持续投入的准备，没有想清楚就不要开始。“敬终”指的是，一旦做了，持续投入，从头到尾踏踏实实落实。

生活里最难的就是如何辨别什么是偶然，什么是必然。我们期待把生活全部变成必然，但其实你会发现人的一生很短暂，我们一生的经历很难都是必然。

人生也总会红灯和绿灯，不会老顺利或者老倒霉，但如果不断努力，确实会更容易成功。听起来像是一句鸡汤，但是站在数据分析的角度来看，生活本来就充满着各种不确定性，如果不去努力，那经历的样本就太少，而经历的可能就会是各种偶然的极端情况（比如一路上老是遇上红灯）。

不轻易跟风，保持平常心，慎始敬终。

03：期望值

墨菲定律，“如果有两种或两种以上的方式去做某件事情，而其中一种选择方式将导致灾难，则必定有人会做出这种选择。”

墨菲定律背后的数学原理即期望值，而期望值就是对可能出现的结果以概率为权做加权平均。墨菲定律的原理其实是由我们对于好事情和坏事情的期望值差异造成的。

顺带一提，均值与平均值的不同点。均值（也叫做期望值）英文是 Mean，它是事前预测的，这个值完全是由概率分布决定，也就是我们前面所说的“对可能出现的结果的概率加权平均”；平均值叫做 Average，它是事后统计，统计样本值的总和除以样本的个数。

如何规避墨菲定律??

增加 B 计划等方式，调整预期以降低坏事情发生对你的心理影响。

优化流程，提高自身能力，尽可能减少事件出错的概率。

“为大概率坚持，为小概率备份”——创业的时候，我们要努力为好的期望（N）去坚持，同时考虑为坏的影响（X）备份，应该尽力降低坏期望（R1）的风险。

“已知的是成本，未知的才是风险”——如果坏的影响（X）为已知，那么即使你按照坏事件发生概率（R1）100% 来准备资金，这批资金也算是你付出的成本；但如果坏影响（X）未知，那么无论坏事件发生概率（R1）为多少，都是风险，因为你不知道这个坏事件究竟会造成多大的影响。

“项目风险控制”——项目管理当中有各种风险管理和预防措施，把风险分为很多类，例如静态风险、动态风险、局部风险、整体风险，同时也会把风险应对措施细分为很多类，其实背后的核心是为了去避免墨菲定律的发生，让整体项目在项目经理的期望值下正确运行。

“生活中的风险控制”——我们在生活中，其实也是可以借用这种风险控制的方法论，识别生活中的风险并做好准备，这样才能够在墨菲定律发生的时候不会手忙脚乱。

对于大数定律来说，告诉我们不要有赌徒心态，要学会持续投入。而对于期望值来说，要懂得平衡预期和未雨绸缪。

04：随机对照试验与幸存者偏差

随机对照试验理论帮助我们解决一个现实世界的实际问题，即当我们不知道客观世界里一个问题的真正答案的时候，可以通过少量的数据来验证非常大的数据规律。

随机对照试验是由“现代统计学之父”、数据分析的鼻祖——罗纳德·艾尔默·费希尔在《试验设计》一书中提出的奶茶试验。

这种试验的重点有两个：一是“随机”，二是“对照”。

幸存者偏差就是当取得资讯的渠道仅来自幸存者时，我们得出的结论可能会与实际情况存在偏差。

在我们工作和生活当中，一定要注意不能犯同样的“错误”——采用非随机的结果来证明我们的观点，更不能用幸存者偏差——拿结果倒推原因来解释我们的一些结论。

05：幂律分布与帕累托法则（二八法则）

直方图与柱状图：直方图是展示数据的分布，而柱状图是比较数据的大小。

幂率分布也叫做指数分布，你会发现在这种分布里，X 轴的开始的地方数值很高（或很低），然后以指数级的下降（或上升）到 X 轴的末尾段，按照统计学定义叫做：“分布密度函数是幂函数的分布”。

二八法则简单来说，就是 20% 的人占了 80% 的资源，剩下 80% 的人分最后 20% 的资源。这个法则诞生于帕累托的花园。有一天帕累托偶然发现，自己园子里绝大部分的豌豆是由园子里极少部分豌豆荚产生。作为一名擅长数学的经济学家，帕累托意识到这里面大有玄机。于是他马上把这种现象应用到了生活的其他领域，他惊奇地发现，意大利人 80% 的土地仅掌握在 20% 的手的人的手中，就和园子当中的豌豆荚类似，于是发表了著名的“帕雷托法则”（也被人称之为“二八法则”）。这个法则的背后的规律就是幂律分布。

总结：运气是实力的一部分，毕竟“幸运只光顾有准备的人”。比其他人更努力，每天多积累 1% 哪怕是 0.1% 的优势，这样把优势不断积累下去，就会占据越来越多的资源，成为这个领域里面的专家，也就会成为那20%中的人。

不积跬步，无以至千里；不积小流，无以成江海。

我们身处的世界是赢者通吃的世界，开始时细微优势最终将带来无穷多的回报。反之，最初的细微劣势也将导致最终一无所有。这个现象也有人称之为“马太效应”，在圣经《新约·马太福音》中是这样描述的：

“ 凡有的，还要加给他，叫他多余。没有的，连他所有的也要夺过来 ”。

06：正态分布和拉普拉斯分布

正态分布又称高斯分布。高斯是最早用正态曲线描述数据的人，为了纪念他，有时候我们也把正态分布称为高斯分布。但正态分布这个名字不是高斯取的，而是由达尔文的表兄弟弗朗西斯·高尔顿命名。高尔顿开创了遗传学的统计研究，并用正态曲线来表明他的研究结果，这个名字后来广为流传。

学术上是这么来定义正态分布的：“如果一个量是由许多微小的独立随机因素影响的结果，那么就可以认为这个量具有正态分布”，即中间高两头低左右轴对称的钟形曲线。

谈到正态分布必须说一下中心极限定理，中心极限定理要求“独立随机样本”，该定理描述的是随着样本数量趋于无穷大，独立随机样本和独立随机样本和的分布会越来越像正态分布。

这里也不得不谈论一下，与大数定律的不同，大数定律研究的是随机变量序列依概率收敛到其均值的算术平均，说白了就是为了说明频率在概率附近摇摆，也为我们将频率当作概率提供了依据。

所以大数定律和中心极限定理说的不是一个维度的事情。

大数定律算的是概率，中心极限定理算的是样本和的分布。

拉普拉斯分布，是一个“凸”字形的塔尖儿曲线，从左到右，斜率先缓慢增大再快速增大，到达最高点后变为负值继续先快速减小，最后再缓慢地减小，所以有点像“往里边凹陷的金字塔”。对比正态分布的概率密度函数图像，我们可以看到拉普拉斯分布图像是尖峰厚尾的，塔尖上的那些，就是我们看到的稀缺资源。

它经常用在金融领域，尤其是衡量股票收益的时候。起初我们认为股票收益率是服从正态分布，但是由于股票价格波动与时间变化有关，有波动聚集性，最后实际股票的收益率都是符合拉普拉斯分布的，也就是赚大钱的日子其实特别集中，余下的都是赚小钱的日子。

特点：越塔尖的个体越具有资源吸附能力。

所以当你在做数据分析的时候，一定得先考虑一下，原有的数据分布模型是否还适用于现有的市场情况？准确把握住数据分布这个大势，我们才能够做出更为正确的决策。

“Work Hard, Play Hard”，要获得更多的自由的时候，也要付出同等的甚至更多的自律。

当今社会的人才分布是呈拉普拉斯分布的，要争取做顶尖，才会有更多的资源和机会。

07：散点图与哈勃定律

散点图注意三个要点：确定两个变量坐标轴；坐标轴的起始值和颗粒度要合适；要找到合适的趋势线和趋势模型进行描述。

趋势线，指数级别的变化，一般背后都酝酿着极大的商机和机会。

正 U 型趋势和反 U 型趋势，这两个也是比较常见的趋势线。它的样子其实就像字母的 U，或者是倒过来的 U（从零开始从零结束）。一个比较著名的反 U 型趋势就是经济学里面的“拉弗曲线”（ Laffer curve），这条曲线最典型地反映了政府税收收入和税率之间的关系。而数据分析的艺术就在于通过数据分析和管理经验找到反 U 型最高点。

散点图呈一个非常复杂的图形，没有正确的数据验证，千万不要轻易下结论，背后所蕴含的实际数据是不是涵盖了所有的数据，还是只给你看了最有这种数据规律的数据。

得克萨斯神枪手谬误与幸存者偏差

在分析散点图的时候看到了规律，还要了解最终这个规律形成的原因和背后的场景，不要简单通过一个图表就得出你的结论。

哈勃，用散点图展示了星系的退行速度和他们离地球距离之间的关系。横轴是这些星系与地球的距离，纵轴是这些星系的退行速度。

这个散点图里图上每个点都代表了一个星系，通过这个图哈勃发现，与地球距离越远的这些星系退行速度越大，也成就了哈勃在天文学里找到的最重要的天文规律之一——哈勃定律。哈勃定律认为，星系可见的退行速度与它们和地球的距离成正比。总结出来的公式就是：退行速度 =H0 × 距离，其中 H0 就是哈勃常数。这个定律是支持大爆炸理论和解释宇宙膨胀思想的一个关键证据，也让哈勃成为近代最著名的天文学家之一。

在工作和生活当中，每天都会有各种各样的事发生，如果我们只是关注事情本身，而没有看到背后的规律，那么我们就会像没有趋势线的散点图一样，都是零散的点，抓不住背后隐藏的那根线，感觉每天都是忙忙碌碌，但其实自己碌碌无为。画这根线就是要找到你生命里的规律，在数据科学里我们叫做算法，生活当中我们叫做哲学。

08：标准差与“黑天鹅事件”

标准差的概念比较简单，它代表一组数值和平均值相比分散开来的程度。也就是说，标准差大代表大部分的数值和平均值差异比较大，标准差小代表这组数字比较接近平均值。

在做投资的时候，标准差也是一个重要的风险 / 收益衡量指标。你看我们在银行储蓄，这个利率波动就很小，相应地标准差很小；股票的波动就会大一些，收益的标准差也会比较大；像黄金这种很稳定的产品，几个标准差就很大了。比如 2013 年 04 月 16 日黄金大跌，路透社分析师约翰·肯普（John Kemp）感叹黄金波动率超过 6 个标准差，觉得非常不可思议。像黄金一类很少波动的东西出现了这么大的波动，达到 6 个标准差的波动的时候（本来稳定的标准差发生了巨大改变），我们就把这种事件叫做“黑天鹅事件”。

离散系数 CV（coefficient of variation）。它的计算公式很简单，就是用标准差除以平均值（离散系数 = 标准差 / 平均值），这样的话就规避了单位或者其他因素的这些差异。我们直接看离散系数这个数据，就能知道这几组数据之间的离散程度和差异是什么样的。

标准差与标准误差：标准差是针对确切一次的已知统计结果，反映的是在一次统计中，个体之间的离散程度，也可以说标准差是针对具体实例的描述性统计。而标准误差代表一种推论的估计，它反映的是多次抽样当中样本均值之间的离散程度，也就是反映这次抽样样本均值对于总体期望均值的代表性，它主要是用于推断整体情况预测和推算使用。

标准差（Standard deviation）= 一次统计中个体分数间的离散程度，反映了个体对样本整体均值的代表性，用于描述统计。

标准误差（Standard error）= 多次抽样中样本均值间的离散程度，反映了样本均值对总体均值的代表性，用于推论统计。

尽量把自己做人做事的标准差变小，提高对自己的标准差预期。

09：数据抽样

简单随机抽样：简单随机抽样就是从总体 N 个单位中随机地抽取 m 个单位作为样本，使得每一个样本被抽中的概率相同。

系统抽样：系统抽样方法就是依据一定的抽样距离，从整体中抽取样本。

分层抽样：，分层抽样就是将抽样单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本，从而保证样本的结构接近于总体的结构，提高估计的精度。

整群抽样：整群抽样就是将总体中若干个单位合并为组（这样的组被称为群），抽样时直接抽取群，然后对所选群中的所有单位实施调查。

如果你要抽样的样本总量比较小，你对人群比较了解，人群构成也比较单一，你就可以直接使用简单抽样方法进行统计；如果针对某一些场景下且这些人群你接触概率基本相同，你就可以用系统抽样来做统计。例如，现在北京大街上看到做问卷的人，基本上都是针对逛街一族或者上班一族的系统抽样统计；如果你想要比较精确地统计，同时你的抽样动用的资源比较多时，你可以使用分层抽样，这样得到的结果会比较科学，但是动用的资源比较多；如果你的资源不够，可以通过各种方式把一些分层或者一些组织机构合并成群，针对群来抽样，当然代价就是降低了整体的准确度。

大数据是否要抽样？三个主要原因：

具有理论基础，在允许一定误差的情况下，抽样可以大幅缩减参与计算的数据量；

抽样过程能帮助我们控制有效数据的比重；

大数据要了解数据的构成，进行合理的抽样，合理的抽样方法可以有效提升计算效率。

大数据中的抽样算法，2种

过采样和欠采样算法。

蓄水池算法，“给你一个长度很大或者长度大小未知的数据（流），并且你只能访问一次该数据（流）的数据。请写出一个随机选择算法，使得选中数据流中每个数据的概率都相等。”

1. 将 1~n 条数据，存入待定长为 n 的集合序列，从这个序列里随机抽取 k 条数据，每条被抽取的概率为：k/n。

2. 读到于第 k 条数据时：定义第 k 条数据选中的概率为：k/n；如果被选中，在原集合序列中的 n 条数据中随机选择一条，替换为第 k 条的新数据；前 k 条数据被选取后，第 k+1 条数据要么被选取替代为前 k 条中的一条，要么不被选取，概率为 k/n。再依此规则遍历所有的数据。整体证明这个算法是公平的过程，你可以参考知乎的这篇文章。单机版本实现起来可以如下实现，直接调用 Sampling(k)，就可以得到蓄水池中的 k 个数据。

蓄水池算法的证明

蓄水池算法的代码实现

古人说“管中窥豹，可见一斑”，合适的数据抽样算法能够由点及面地看到事物的全貌。

10：指数

凡是用指数描述的东西，都是一个长期存在或者需要大范围衡量的事情。

用户忠诚度指数：复杂度在于你对于业务的定义。

公式很容易定义，但是对于公式的解释往往非常复杂，而且需要大量业务经验的人员和经验通过“数据治理”这个过程才能把它定义好。

一定要基于细致的业务流程和实验，才能得到合理科学的结果。

11：因果推断与伯克松悖论

当我们看到数据结果的时候，一定要仔细推敲其中的业务逻辑，同时进行反向测试。

在工作和生活中，不要轻易下因果关系的结论，相关并非因果。

在日常生活和工作当中看到两个数据强相关的时候，即使不能把它们当成因果关系，也可以顺藤摸瓜找到可能的原因，再用业务逻辑或者实验去验证这个可能的原因是否为真实原因。缺乏业务逻辑的数据，永远只会是数据。缺乏数据的业务逻辑，也永远只是在纸上的一个业务逻辑图而已。

以偏概全——伯克松悖论：伯克松悖论指的是当不同个体被纳入研究样本的机会不同时，研究样本中的两个变量 X 和 Y 表现出统计相关，而总体中 X 和 Y 却不存在这种相关性。

看上去有因果关系的数据，还要看数据集的比对性才可以给出数据最终的结果。

控制数据范围——神枪手谬误：控制数据范围导致错误的数据结论逻辑，很多统计结果其实是被操纵的，他们把某些机缘巧合之下比较好的结果的相关数据放到一起，去证明一个不可能的事情，但是如果你再换一组数据，那么你就没有办法证明这个因果关系。

在看最终数据分析报告的时候，一定要看它的数据是不是先有枪眼再画靶子，或者先找到满意的结果再给你看统计数据，我们需要的是通过大量的随机样本给出的结果。

时间长度不足——替代终点问题：在分析和统计的时候，由于时间长度不够，会造成数据统计的结果不准确。（ surrogate endpoint problem ）

风险投资人在选择创业公司的时候，其实是靠大的方向和辨识团队来进行投资，而不是靠具体某些数据来表明这个创业公司是否靠谱。因为相对一个创业公司来讲，公司的成立时间太短了，公司的数据不代表趋势，这就是替代终点问题。

数据分析基础部分整合版思维导图

以上部分内容来自极客时间专栏，数据分析思维课。链接地址：http://gk.link/a/10KYP

文档：数据分析基础复习笔记.note

链接：http://note.youdao.com/noteshare?id=966fc3ad5b99659a2cbc079d7475951b&sub=2C7261EB7EA4454A8DA85308446868EE

数据分析基础复习笔记

数据分析基础复习笔记

相关阅读更多精彩内容

友情链接更多精彩内容