第一章
统计学的一个核心功能就是使用手中已有的数据进行合理推测,以回答那些我们还未掌握所有信息的“大”问题。简言之,我们能够使用“已知世界”大数据来对“未知世界”进行推断。
面对难以接受的风险,如果个人和企业都无法规避,就回通过其他方式寻求保护。保险业应运而生。
第二章 描述统计学
从棒球到收入,对大量信息进行归纳是处理数据时最基本的任务。美国有3.3亿居民,一张记录每位美国人的姓名和收入的电子表格包含了我们衡量这个国家经济健康状况所需的所有信息,但这张信息过量的表格其实相当于什么都没有告诉我们。这就是让人觉得讽刺的地方:经常是数据越多,事实越模糊。因此,我们需要简化,将一系列复杂的数据序列减少为几个能够起描述作用的数字,正如奥运会体操比赛中,我们将一套多难度组合的复杂动作浓缩为一个得分:9.8。
好消息是,这些描述性数据为我们提供了一个针对某一现象的可操作、有意义的概括,这也是本章所要讲的。但坏消息是,任何一种简化都会面临被滥用的危险。
描述任务的第一步通常是估量某套数据的“中间位置”,也就是统计学家所说的“集中趋势”。
其实所谓的平均数、平均值在这里是有一些问题的,即它们容易受到远离中心区域的“异常值”的干扰而出现失真。
如果一组数据分布中没有特别离谱的异常值,那么它们的中位数和平均数将会是差不多的。
标准差这一描述性数据能够让我们用一个独立的数字来表示距离平均数的离散程度。
标准差是衡量离散的指标,反应了分散在平均值周围的数据的聚合程度。对于许多典型的数据分布来说,有很大比例的数值都位于它们的平均数的某个标准差范围内,也就是说,这些数值有的比平均值大,有的比平均值小,但都是在一个正常范围之内的。
第三章 统计数字会撒谎
马克吐温有一句名言是这样说的,“谎言有三种:谎言、该死的谎言,以及统计学”。正如前一章所讲的,我们关心的大多数现象都可以用多种方式进行描述。如果对某一事物的描述存在多种方式,那么我们所选择使用(或回避)的描述性数据就会影响别人对此事的印象。一些别有用心的人甚至会用光鲜的事实和数据来支持真假存疑或完全不成立的结论。
一个数据的准确与否表明了其与真相是否一致,因此将“精确”和“准确”混为一谈是要付出代价的。如果一个答案是准确的,那么在这个基础上当然是越精确越好;但如果答案从一开始就是不准确的,那么再精确也毫无意义。
百分率不会撒谎,但它们会夸大其辞。让增长出现“爆炸”的方法之一就是与一个非常低的起点进行百分率比较。
在商界流传着一句至理名言:“你无法管理你无法衡量的事物”。这句话千真万确,但你最好要保证你所衡量的,正是你努力想去管理的。
本章内容一直在强调,统计陷阱与数学能力的关系不大。哪怕是令人叹为观止的精确计算也会混淆视听,甚至成为不良动机的掩护。有时候哪怕你准确无误地计算出平均数,也无法改变中位数在对真相的描述中更准确这样一个事实。判断和正直成为关键所在,就好比一个人非常懂法也不能阻止其犯下罪行一样。渊博的统计学知识无法遏制不道德的行为,无论是统计学还是法律,坏人总是清楚地知道自己在做什么!
第五章 概率与期望值
作为消费者,你应该知道,从长远来看,保险并不能为你省钱。保险能为你做的是,当你遭遇一些难以承受的巨大损失时,如价值4万美元的汽车被盗、35万美元的房子被烧毁时,为你提供赔付,帮你渡过难关。从统计学的角度来看,购买保险是一项“糟糕的投资”,因为平均来看,你支付给保险公司的钱永远要比得到的赔付多。但如果想防止一些足以毁掉你生活的结果出现,保险就是一个理性的工具。讽刺的是,一些巨富如巴菲特倒是可以不用买车险、房屋险,甚至医疗保险,从而省下不少钱,因为就算有再糟糕的事情发生在他的身上,他都能承担得起。
一般来说,你为延长保修服务所支付的金额要高于打印机的修理费。你应该时刻谨记为那些你无法轻松承受的意外上保险,而其他情况就不要浪费钱了,这是个人理财的核心原则之一。
假如我买了一张1美元的即开型彩票,在彩票背面印着的细小文字里我可以找到不同等级奖金的中奖概率:1/10(1美元,即免费再来一张)、1/15(2美元)、1/42.86(4美元)、1/75(5美元),一直到概率为1/40000的1000美元。我将每个等级的中奖概率乘以奖金额度,最后将得到的结果相加,计算出购买此类彩票的期望值。结果是这种1美元彩票的回报期望值约为0.56美元,所以这绝对是一项糟糕的投资。但我的运气还不错,中了2美元。
虽然我中了2美元,依然无法改变购买彩票是一种愚蠢行为的事实,这就是概率教给我们的重要经验之一。
第六章 蒙提霍尔悖论
(我觉得是一个很有趣的例子)
在《让我们做个交易》节目中,主持人打开的3号门后面是一头羊,在剩下的1号门和2号门中必定有一扇门后面是汽车,你应该如何选择才能中大奖?
.....
简而言之,如果你有机会参加《让我们做个交易》节目,当蒙提霍尔问你是否要改变选择时,你要毫不犹豫地点头。更夸张的是,这个例子告诉我们,你对概率的本能理解有时候会将你引入歧途。
第7章 黑天鹅事件
第8章 数据与偏见
选择性偏见/发表性偏见/记忆性偏见/幸存者偏见/健康用户偏见
第9章 中心极限定理
1.如果我们掌握了某个群体的具体信息,就能推理出从这个群体中正确抽取的随机样本的情况。
2.如果我们掌握了某个正确抽取的样本的具体信息(平均数和标准差),就能对其所代表的群体做出令人惊讶的精准推理。
3.如果我们掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。
4.最后,如果我们已知两个样本的基本特性,就能推理出这两个样本是否取自同一群体。
1.如果你从某个研究群体中多次随机抽取数量足够多的样本,那么这些样本的平均值会以整体平均值为中心呈现正态分布(不论该群体自身的分布情况是怎么样的)。
2.绝大多数的样本平均值都会紧紧围绕在整体平均值的周围,通过计算标准误差就可以知道这些样本平均值到底是离得“近”还是“远”。
3.通过中心极限定理,我们便可知道样本平均值与整体平均值之间的距离及其概率。样本平均值离整体平均值两个标准误差的概率相对较低,3个或以上标准误差的概率基本上为零。
4.如果出现了某个概率较低的结果,我们便可用推测是不是有一些其他因素介入,而且概率越低,其他因素介入的可能性就越大。
第10章 统计推断与假设检验
统计推断中最常使用的工具之一就是“假设检验”。
就凭数据本身并不能证明任何结论,我们只有通过推理和概率来对可能的解释给予支持或否定。更为精准来说,任何统计推断都是由或含蓄或直接的零假设开始的。先假设一个结论,然后通过统计分析对其进行支持或反驳。如果我们证明零假设并不成立,那么相当于承认了其反面结论与真实情况更为接近。举个例子,法庭在审理案件的过程中,首先会假设被告方无罪,而指控方的工作就是说服法官或陪审团来推翻一开始的无罪假设,并接受其反面事实,即被告有罪。从逻辑学来看,如果我们能证明某个零假设不成立,那么其对立假设(又称备择假设)肯定为真。
在任何情况下,对推翻零假设的举证责任的要求越宽松,推翻零假设的可能性就越大。但我们显然不愿意看到无效的癌症药物进入市场,也不希望将无辜的人送进监狱。
但这又出现了一个矛盾。推翻零假设的门槛越高,我们推翻零假设的可能性就越小以至于很多应该被推翻的零假设“逃过一劫”。如果我们要求凑齐5位目击证人才能将被告定罪,那么将会有很多罪大恶极的罪犯逍遥法外(当然,蒙冤入狱的人也会相应减少)。如果我们对所有新药的临床试验都要求0.001的显著性水平,那么将会极大地减少无效药物进入市场的可能性(因为错误推翻“药物没有比安慰剂更有疗效”的零假设的概率只有千分之一),但我们同时也面临着将有效药物拒之门外的风险,因为我们的准入门槛太高了,这就是统计学上的 II型错误,又称“假阴性”。
哪种错误更严重?这要依情况而定。最重要的是,你能够意识到宽松和严格之间的权衡与妥协,因为统计学里没有“免费的午餐”。
第11章 民意测验与误差幅度
第12章 回归分析与线性关系
第13章 致命的回归错误
世界上3本最有声望的医学期刊上刊登的49篇学术研究论文中1/3后来都被推翻了,使用,“尽量不要用你的回归分析研究杀人”。
让回归分析这一非凡的工具沦为“邪恶”工具的7个最常见的错误。
1.用回归分析来分析非线性关系。
2.相关关系并不等同于因果关系。
3.因果倒置。
4.变量遗漏偏差
5.高度相关的解释变量(多元共线性)
6.脱离数据进行推断。
7.数据矿(变量过多)