启发:我们需要从数据挖掘出背后的真实原因,单纯的数据呈现,就有可能出现得到有偏差的结论,甚至导致制定错误的计划。
培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。”我想对数据资料的判断和接收也是如此。
第一章 内在有偏的样本
耶鲁大学毕业生收入:参与调查的人本身就不能代表全部毕业生。它也仅仅代表了 1924 级耶鲁学生中可以联系到的,并愿意站出来说出所赚数目的这个特殊群体。
记住下面这点是有益的:无形的误差与有形的误差一样容易破坏样本的可信度。也就是说 , 即使你找不到任何破坏性的误差来源,但 只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。
随机样本的检验标准是:总体中的每个名字或事物是否具有相同的几率被选进样本?
第二章 精心挑选的平均数
众数、平均数、中位数
第三章 没有披露的数据
牙膏,小样本,多次实验选择较好的那组
因为他向他们灌输某些观念,特别是将许多普遍存在却未经认可的性行为称为正常。实际上,金西博士只是指出他发现这种行为很普遍,而这便是正常所指,他并没有为这些行为贴上许可的标记,这些行为是否道德也并不属于他的研究范围。
农村接上电。用词模糊,并不是用上电。
平均气温
第四章 毫无意义的工作
记住误差的加减号(比如比较两人的智商)
只有当差别有意义时才能称之为差别
第五章 惊人的统计图形
绘图的手段会给人错觉,比如柱状图、陷入截去下面部分
第六章 平面图形
按照长宽比例,面积会是平方关系,让人感觉的立体物体是立方关系。
第七章 不相匹配的资料
如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事。在统计资料与人类思维冲撞所引起的耀眼光芒中,几乎没有人会发现它们的区别。不相匹配的数据是保证你处在有利位置上的武器,而且通常如此。
感冒药杀菌,存在疑点:进入人类就失效,服用前已经被稀释,杀的是什么菌。
数据到底能得出怎样的结论。
交通事故发生的背景、时间段、天气,坐飞机、火车发生的事故。死亡的总人数没有太大意义,要看占总使用人口的比例。
但实际上,公报中的利润仅是实际利润的一半或三分之一,没有报道的利润隐藏在贬值、特殊贬值名目下以应付将来的紧急情况。
如果我每天早上以 99 美分购进一件商品,并在中午以 1美元卖出,那我只获得 1%的收益,但是全年我却获得了投资额的 365%。
这是一个有趣的事实,在考虑某种疾病的发病情况时,使用死亡率或者死亡人数比发病人数更合理__这是因为死亡报道和死亡记录的质量更高。在此例中,明显不相匹配的数据比表面上完全匹配的数据还要好。
第八章 相关关系与因果关系
但这是一个古老的谬误,然而它仍频繁地出现在统计资料中,并被大量让人印象深刻的数据所伪装。这个谬误是:如果 B 紧跟着 A 出现,那么 A 一定导致 B。在上例中,当抽烟与低分同时出现时,人们得到了一个未经证实的假设,抽烟导致低分。难道就不能是相反的解释吗?也许低分促使学生不喝酒而变得爱抽烟。这种说法与前一种一样能得到证据很好的支撑。只是它不能够满足宣传人员的要求。
问题的关键在于,当有许多合理的解释时,你几乎没有权利选择对口味的解释并坚持认为它是正确的。但事实是许多人会这么做。
第九章 如何进行统计操纵
实际上.如果出版一本书的每项成本开支都上升 10%左右,总成本也只爬升了相同的比例,即 1O%。
另一个困惑出现在百分比与百分点之间。如果某年的投资回报率为 3%,而第二年为 6%,你可以很谦虚地描述:增了 3 个百分点。同样,这样的描述也是允许的:增长高达 100%。要了解人们怎样混淆这两种说法,请观察民意选举的投票者。
第十章 对统计资料提出的五个问题
首先要寻找的是偏差
然后,再仔细寻找无意识偏差
“权威人士”掩盖了真实的资料来源。与医药界沾边的任何东西都可以是“权威人士”;科学的实验室也是“权威人士”;大专院校,尤其是大学以及那些在技术方面名列前茅的学校更具有权威性。前几章中那个试图证明高等教育将危及女孩成婚几率的作者,充分地利用了康奈尔大学这个“权威机构”。但请大家注意,虽然数据来自康奈尔大学,结论却完全是作者自己的。康奈尔大学的声望却让你留下了一个错误的印象,“康奈尔大学得出结论⋯⋯”
注意样本的有偏.是由于选择不当,还是像这个例子一样,由刻意挑选有利的样本造成的。问一个我们前几章曾经提过的问题:样本是否足够大到能够保证结论值得信赖?
有时仅给出百分数却缺少原始数据也能造成欺骗。
有时文章中遗漏了引起变化的原因,这容易让读者认为其他的因素才应对变化负责。某年公布的数据试图用今年 4 月的零售额高于去年来证明经济处于复苏阶段。而遗漏的内容是去年的复活节在 3 月而今年在 4 月。
而且,如果你关心死亡总人数更甚于死亡率的话,不要忽略这个事实:现在的人数已远远超过了从前。
如果数据是建立在人们口头的回答(即使有一些听上去十分客观)基础之上,将发生许多怪事。比如说,普查报告显示 35 岁的人数远远多于 34 或者 36 岁的人数。这个数据来源于家庭某个成员填报的其他成员的岁数。对于不确定的年龄,人们往往倾向于取 5 的倍数。获得该数据的准确办法是:询问他的出生年月。
如果你以每月等额分期付款的形式从银行以 6%的利率借了 1OO 美元,应支付的利息是3 美元。但如果是另一种 6%,有时也称为借 100 美元还 6 美元,你就需要偿还前者的 2 倍即 6 美元。大多数汽车贷款采用后一种方法,实在是狡猾。关键在于分期还款时,100 美元你并没有用到一年,6 个月过去后。你已经偿还了一半的贷款。如果采用第二种形式计算利息,即借款额的 6%,你实际承担的利率应该是 12%。
几年前一家大型电器设备公司以出生率不断下降为基础(多年以来,大家都是这么认为的)高效地制定出了战后的生产计划,并将小容量家电设备、公寓式的冰箱确定为生产重点。其中一个计划者突然发现了计划与常识的冲突,他用足够长的图表列举了这样的事实:他本人、他的合作伙伴、他的朋友以及他的邻居甚至以前的同学都有了孩子,甚至还打算要 3~4 个孩子。这样规模的家庭不应算作小规模的。这导致了一些开放式的调查与制图,不久这家公司快速地将它的生产重点转移到大家庭使用的电器上。——因为虽然出生率下降了,但是更多的家庭变成了多子女家庭,出生率和每个家庭的子女数量没有因果关系