序言

谈到统计学，我们首先会想到的是一大堆的数据。其实对数据本身而言，也是需要有上下文联系的数字来表示。比如，数字190本身不能代表什么，但是我们说一个人身高190cm，我们就会说这个人好高啊。结合数字的上下文联系和个人知识，我们就能够做出判断。 统计学就是收集，处理，分析，解释这些数据并从数据中得出结论的科学方法。

数据胜过传言
曾经民间流传长时间使用手机的人会因手机辐射而导致癌症的增加。对此国际上进行了跨13国迄今最大的调研（具体可见：http://interphone.iarc.fr/），收集数据并进行分析，最终并未发现手机辐射会增加人体致癌机率。但如果你在网络上看到父母在哭诉孩子因玩手机而患癌症，你会选择相信数据还是相信悲伤的父母呢？

事实上，我们对于传言应该心存疑虑，因为数据比传言更可靠。数据可以系统的描绘整个事件的面貌，而不是只聚焦于某单一事件。

数据来源最重要
统计研究中，最重要的就是数据来源。

小心潜在变量
如果有人说：“受到良好教育的人比没有受到教育的人能赚更多的钱”。我想没有人会反对。但仔细想想，这背后有没有更深层次的原因呢? 受教育程度高的人，平均来说父母受的教育程度也高，也比较有钱。他们能够在更好的环境中长大，上更好的学校。这些有利的条件让他们接受更多的教育。即使他们不接受这么多教育，这些有利的条件也会帮他们赚到更多的钱。

一个结论可能只涉及两个变量之间的关系，并引导我们得出一个变量变化会引起另一个变量变化的结论。这些信息是正确的，但我们看到的相关性，可能还可以由隐藏在背后的一些变量来解释。

变异性无处不在
人的体温平均在37度。但如果你在一天中的不同时刻去测量体温，你会得到不同的结果。这就如同股市数据微小的波动并不产生实质性的变化。所以当一些“专家”对每天股市变化进行分析，你完全可以嗤之以鼻。

统计结论不是百分之百确定的
变化无处不在，所以统计结论并不是绝对的。吸烟容易得肺癌，并不是说你抽烟就会得肺癌，而是从统计数据来看，吸烟得肺癌的概率比不抽烟人群的概率要大。

数据可反映社会价值
18年1月17日，国家统计局发布2017年中国GDP数据，17年GDP同比增长6.9%。这也充分说明了我国经济运行延续稳中向好的趋势。

第一部分：数据的生产

第一章：数据从哪里来

学统计学，我们需要知道统计学上一些基本的概念。

这是一门课结束后的成绩单：

image_1c5gi0pdpif4b615a2elcgu09.png-80kB

在这章表中，个体就是各个学生，而专业、总分数、等级为其中的变量。其中，总分数用数字表示，代表数值变量。专业和等级都为类别变量。

选择变量时的错误判断，可能导致在数据上浪费大量的时间和金钱却徒劳无获。

有句谚语说：“你不必吃完整头牛，才知道肉老。” 这就是抽样调查。即通过一部分获得全体的情况。总体：就是那头牛身上有的肉，即我们想研究的所有目标对象。样本：牛身上的某些牛肉。即总体的一部分，从样本中搜集信息，以便对总体做出推断。

例如：在生活中，我们要检验生产的一批灯泡的质量。就需要使用抽样调查，而不会说是对所有的灯泡一个个调查。

另一方面，我们通过做某些实验来改变行为。在实验中，我们不只是观察个体或问问题，而是刻意做了某些处理，以便观察其反应。

例如：让一堆学生在看不到商标的情况下喝可口可乐和百事可乐，观察哪种可乐更受欢迎。

在依靠数据信息推导出结论的过程中，我们面临的第一个问题就是数据来自何处。统计研究结论的本质和有效性都取决于这一点。数据来源于两个渠道：观察研究 和实验。抽样调查就是一种观察研究。

第二章：好样本与坏样本

每年秋季，老家的乡亲把苹果装箱卖掉的时候，都要将最大最红的苹果放在最上面，因为这样做，客户在抽取几箱进行检查的时候，会从箱中从最上面的苹果进行取样，从而对整体的苹果进行定价。

从一箱苹果的上层进行抽样，所得的结果是有偏的，即作为样本的苹果，质量要优于整体的苹果。

如果客户想要得到最公平的整体苹果的质量，最好的方式应该是随机抽样，需要经过两个步骤：1. 贴标签，即把所有的苹果进行编号。 2. 软件。通过电脑软件随机选择样本。可以通过：www.randomizer.org 这个网址进行练习。

对于任何一个样本，我们要问的一个问题就是：样本是不是随机抽取的

第三章：样本可以告诉我们什么

在2004年，美国盖洛普公司调查2.2亿美国成年人支持宪法修正案通过的比例，抽取了一个包含2527位成年人的样本，这其中有1289人支持修正案，支持率为51%，我们能否说美国人民的对该修正案的支持率就为51%呢？

在讨论这个主题之前，必须先区分哪个数字是描述样本的，哪个数字是描述总体的。
参数是描述总体中提到的数字。即全美国人民对该修正案的支持率。
统计量 是描述样本的数字。即值为51%。

如果盖洛普公司重新随机抽取了2527位成年人，样本统计量的值随之改变，为46%。那么我们该相信哪个呢？

在这种情况下，我们就需要对样本进行多次抽样。而抽样样本的大小，会决定样本变异性的大小。 这句话如何理解呢？

假设美国人民最终总体的支持率为50%，盖洛普公司每次只对100人进行访谈，总计抽样访谈了1000次，那么不同支持概率的次数如何分布呢？

从图中我们可以看到，当样本大小为100时，支持概率的分布比较分散，次数最多的概率范围为40%-60%之间。

样本为100.png-161.7kB

盖洛普公司每次对2527人进行访谈，总计抽样访谈了1000次，那么支持概率的分布又如何呢？

我们可以看到，当样本大小为2527时，不同概率分布比较集中，次数最多的概率范围为48%——52%之间。

样本为2527.png-161.2kB

【结论】：

大小为100人的概率分布比较分散。大小为2527人的概率分布比较集中。
大小为100人的1000个样本中，有95%的支持率分散在0.40——0.60之间。大小为2527人的1000个样本中，有95%的支持率分散在0.48——0.52之间。
大样本与准确值之间的差异在0.02之间，而小样本与准确值之间的差异在0.1之间，为大样本的5倍。所以大样本统计量的变异性比小样本统计量的变异性小。

【注意】：一个随机样本统计量的变异性，不受总体大小的影响，只要总体至少比样本大100倍。并且样本统计量的变异性是由样本的大小决定。

现在，我们就清楚了两个概念：

偏差：当我们取多个样本时，它们的统计量朝一个方向偏离总体的参数值。
变异性：当我们取多个样本时，统计量值的离散程度。

我们可以用打靶来形象的表示:

差异与变异性.png-48.5kB

我们该如何减小偏差与变异性呢？
减小偏差：用简单随机抽样的方法。
减小变异性：用大点的样本。

当实际抽样调查的时候，我们不可能知道总体参数的真实值是多少（除非对总体的每个对象进行调查），因此我们只能从大的随机样本中得到估计值，因此就会存在误差范围。

误差速算法：当我们一个大小为n的简单随机样本的统计量来估计未知的总体参数，如果置信度为95%，那么误差大致为

公式.png-1.6kB

。（只试用于简单随机抽样）

例如，在上面盖洛普的支持率调查中，如果抽样人数为100，误差概率为 1/10 = 0.1。如果抽样人数为2527人，误差概率为0.02。
（如果想要把误差范围缩小5倍，我们就需要将抽样人数扩大25倍）

置信度说明: 我们有95%的把握认为，在所有成年人当中，有49%~53的人支持该修正案。

我们可以看到，置信度说明包含两个部分：

误差范围：样本统计量距离总体参数真实值有多远。
置信度：所有样本统计量中，满足该误差范围的样本统计量的百分比。 用置信度来表达对一个样本的结果有多大的信心。

第四章：真实世界中的抽样调查

在今天，我手机短信接到一条评分问卷，内容如下：【滴滴出行】尊敬的滴滴用户，诚邀您参加用户调查，以便于我们改进服务，请点击https://dc.tt/BKR9Ld6gg；点击后显示内容为——您有多大可能性推荐朋友/同事使用滴滴快车？(0-10评分，0分绝对不会推荐；10分肯定会推荐) ；

image_1c5k9i2fnamtgsfb9tc6c1j0pc.png-29.2kB

我们假设滴滴随机发送了20000条短信，最终收到了1000份评分问卷，那么滴滴是否就能认为这1000份评分问卷成绩就绝对代表了用户对滴滴的评分成绩呢？

答案当然是不能。因为在现实生活中的抽样调查，会存在很多的误差。

第一就是随机抽样误差，因为抽样调查本身不能全面涵盖所有总体，我们可以通过选择随机样本的大小，来控制随机抽样误差。

第二就是使用了糟糕的抽样方法，比如：假设滴滴对打车体验进行调查，采取自愿回应的措施

第三就是样本会对总体内容涵盖不全，比如滴滴进行短信调查，就会漏掉从来不看短信的人群。

第四就是非抽样误差，比如用户看到滴滴公司发的评分短信，但不对其作出回应。 无回应的偏差很容易超过误差范围所描述的随机抽样误差。

第五就是问题的措辞，比如滴滴在这次调查中问的问题是：你有多大的可能性给朋友推荐滴滴打车而不是你给滴滴打车评多少分。我相信这两个问题的答案一定差别很大。
有诱惑倾向的问题需要避免，比如：你是否赞同禁止私人拥有枪支以降低犯罪率。

滴滴公司该如何应对调查中无回应人群的问题？
一种方法是，用相似的用户来进行代替。另一种方法是，当数据收集完成，用统计方法给有回应的数据进行加权

在现实生活中的抽样调查，我们常常需要将样本进行分层处理，进行分层抽样需要两步：1. 将抽样框架中的个体先分成若干层。 2.针对各层取随机样本，组合起来就是我们要的总样本。那么，分层抽样有什么优点和缺点呢，我们通过一个案例来分析：

例如：工程大学有20000名学生，其中研究生2000人。我们抽取500名学生进行调查。
如果从全校同学中随机抽取，那么每个人被抽取的概率为 500 / 20000,即20分之一。在抽取的500人中，大约有50名为研究生。

大小为50的样本不能反映整体的研究生意见，我们选择一个研究生为200人，本科生为300人的分层样本。

那么，每个研究生被抽到的概率为200/2000=10%，样本统计量误差为

image_1c7399m8psgb9ko12ou1c24129.png-17.8kB

每个本科生被抽到的概率为300/18000 = 1.7%。样本统计量误差为

image_1c739ag461qqf2q710pv18hb1mo3m.png-19kB

分层样本刻意加重了研究生的比例，得出的结论还必须做出调整，才能得到所有学生意见的无偏估计。

在现实生活中，我们要得到精确而有效的抽样调查，就需要调查者使用好的统计技术，并认真准备抽样框架，注意问题的措辞，减少无回应率。同理，当你在相信一些调查结果之前，应该先问以下问题：

这个调查是谁做的
调查的总体是什么
样本是如何选取的
样本有多大
回应率是多少
用什么方式联络的受访者
调查是什么时候做的
调查问题的措辞如何

《统计的世界》读书笔记

《统计的世界》读书笔记

序言

第一部分：数据的生产

第一章：数据从哪里来

第二章：好样本与坏样本

第三章：样本可以告诉我们什么

第四章：真实世界中的抽样调查

相关阅读更多精彩内容

友情链接更多精彩内容

《统计的世界》读书笔记

序言

第一部分： 数据的生产

第一章：数据从哪里来

第二章：好样本与坏样本

第三章：样本可以告诉我们什么

第四章：真实世界中的抽样调查

相关阅读更多精彩内容

友情链接更多精彩内容

第一部分：数据的生产