数据的真相:如何在数字时代做出明智决策
【美】 约翰·H·约翰逊 麦克·格鲁克 著
王喆 译
中信出版社
封面 :
第一章 无处不在的数据:从大数据到小数据
位于休斯顿的乔治·布什国际机场领导层接到了有关乘客行李达到时间过长的投诉。因此他们把取行李处转移到了离出站口很远的地方。旅客于是把时间都花在了走路上——而不是等行李上,投诉量减少了,因为人们觉得拿行李的时间缩短了。
在这个由数据驱动的世界,你并不总能了解到底是什么在驱动数据。
第二章 对“挑战者号”评估结果的异议:抽样如何影响结果
在数据分析中,使用样本对总体进行估算是一个常用的手段。但你必须非常小心,因为哪怕很小的错误都会迅速放大 。因此有两类问题应引起重视。
数据是否能够代表基础数据总体。
考虑对所收集的数据,分析的对象是什么——是在分析所有数据,还是分析一部分数据?
外延有效性,即把从样品中得出的结论加以推广,从而得出对整个数据总体有意义的结论。
某期刊上有文章指出:“人类行为学家总是循环往复地在世界顶级期刊上发表有关人类心理、行为的概括性论断,而这些论断全都是从西方的、教育程度高的、工业化的、富有的、民主的(前五个词的英文首字母缩写为weird,意为怪诞)社会中抽样。”
做一个成熟的数据抽样接收者
- 明白基于错误样本得出结论将会导致的后果。
- 问自己:哪些数据能够最为恰当地回答所提出的问题?
- 当你看到“在一个非科学的调查中……”或“领先的”_____,等诸如此类的话,你可以将其视为危险信号。
- 留心自陈式数据
- 要记住,在很多统计工作中,对数据的一部分抽样或对数据的总体抽样并无好坏之分。
第三章 红色州为什么变蓝了:平均数及总数——近观概括性统计
数据合计的方式会掩饰重要的不同点。例如以州为单位的合计数据使得得克萨斯州成为一个红色州,而以县为单位的合计数据使得得克萨斯州的一些县呈蓝色。
如果排除了一个数据值,导致结果产生了巨大的变化,那这个数据值很可能是离群值。在一个良好的统计模型中,应该能够任意排除一个数据,统计结果不会因之发生显著变化。
- 概括统计仅仅是一个标准,仅仅从一个维度衡量数据。会掩盖基本数据的不同点
- 区别平均值、中位数和众数
- 试问“什么的平均数”
- 看是否所有数据都被平等对待。使用加权平均数的时候必须知道加权是否存在以及加权的方式是否合理
- 辨别离群值,并理解离群值给平均数带来的影响。(有些离群值是数据组中完全有效的组成成分。其他时候,应当排除极端数值以得出问题的正确答案。)
第四章 使用苹果手机的人更聪明?正确理解关联性和因果性
遗漏变量:在一种关系中起作用,但是可能被忽视或者被排除掉的变量。遗漏变量是关联性不等于因果性的主要原因之一。
虚假变量
从星巴克旁边的房子价格高这个例子中,我们了解到两组变量之间存在关系。
“在过去,书籍和搜索引擎还没有发明之前,找出原因和影响对于我们的生存至关重要,”弗里德曼指出,“我们的大脑通过进化,变得善于寻找秩序、预测事情发展。我们无法控制这个过程——我们会处处寻找联系,即使联系并不存在。”......“我们脑中仿佛有这样的程序——揭示事件之间的联系,解读偶然事件,将其作为存在因果关系的证据,当某件事起因不明的时候,我们会自然而然想要填补这个空白,人为地加上原因。”
实证性偏见是一种通过解读数据来支撑自己先入为主观念的倾向。在研究关联性和因果性的时候,实证性偏见是有些人忽略遗漏变量的一大原因,因为他们凭借先入为主的观念,而非基于真实的证据,把两件事时间的关联性当成了因果性。
如何成熟地应对关联性和因果性
- 问你自己,这篇新发表的文章或研究展示了什么。
- 在理解统计学分析结果的时候,退一步,用常识思考一下——这样的关系从直觉看来对不对?
- 如果你看到了两者之间的关系,问自己:会不会有其他的因素导致了我所观察到的结论?
- 时刻当心反向因果关系。找到统计学上的关联性并不能表示事情就是按照那个顺序排列的。
第五章 眼见真的为实吗?我们信仰统计学
显著性差异是科学家和学者设定的客观标准,用来确定“从统计学角度来看”某个特定的关系是否存在于数据中。科学家通过检验显著性差异以辨别观察到的效应是否在数据中有所体现(存在很大可能性),或仅仅出于巧合。(有一点很重要,即找到显著性差异并不能告诉我们某种关系是关联性的还是因果性的,同时也不能告诉我们是否存在遗漏变量影响着最终结果。)
显著性差异通常会用P值来衡量。P值越小,你观察到的结果仅仅出于巧合的概率就越低。衡量显著性差异时,普遍为人所接受的P值为小于0.05(相当于5%可能性)。
观察样本总会存在一定的不确定性。用统计学术语说,这种现象叫作样本误差。样本误差体现了你的样本有着多大的不确定性。样本误差之所以存在,是因为并非所有的样本都是相同的。哪怕你从同一个数据总体取了两个相同大小的样本,依然可能得到不同的结果。
置信区间越大,区间内包含(整个数据总体中的)真实值的可能性越大。置信水平通常以百分数形式出现,表示样本包含真实值的概率有多大。
单单因为无法证明某事发生,并不意味着某事就没有发生。哪怕你没有听见(或看见)树林里有树倒下,树依然有可能倒下了。
- 确定所看到的结果是否随机出现。在许多情况下,判断结果是否随机需要一个基线,以此来比较你所得出的结果。
- 要了解,许多研究发现其实是基于或然性的。一个具有“显著性差异”的研究发现,也仅仅表明结论有95%的可能性落在置信区间内。仔细研究P值可以让你了解结论有多少可能性并非仅仅是随机出现的——很多情况下我们会得出可以确信的结论,但要记住,我们只是在衡量或然性而已。
- 要知道,你在新闻标题中看到的数据常常是范围内的一个值。
- 哪怕得出了显著性差异的效应,也要看一下效应量。
- 思考数据对你生活产生的影响。仅仅因为某个研究发现具有统计影响——哪怕效应尺度很大,并不表示其对你每天生活会产生经济影响。
第六章 非洲为什么会变小?歪曲与曲解
一个关于世界地图的有趣例子说明歪曲数据的情况几乎出现在生活的方方面面!
麦卡托的世界地图专为一件事情而绘制:帮助船员更为准确地绘制航线。若船只在某一航线上没有改变航向,那么该航道就用直线表示,这种新颖的方法使得船长在运送货物时更加轻松自如。 对于麦卡托来说,这种绘图技术需要一定的技巧,因为船员在立体地球表面的航行路线不能自动地转化成平面地图上的直线。不过麦卡托做到了,并因此名利双收。 遗憾的是,新版地图在协助船员海上作业的同时,严重歪曲了全球陆地和国家的面积。船员为了获取直行航线要付出极大的代价,原因在于,麦卡托几乎歪曲了地图上所有陆地的面积。更糟糕的是,这种歪曲并不均衡:陆地距离赤道越远,歪曲程度越严重。
-
麦卡托投影图:
-
温克尔三重投影图:
在麦卡托地图上,格陵兰岛看起来似乎和非洲一样大。然而,事实并非如此,二者实际上相差甚远。从面积上看,非洲面积几乎是格陵兰岛的14倍,然而非洲位于赤道(因此,歪曲程度较小),由于格陵兰岛大部分区域都在北极圈之内,所以,在麦卡托地图上,格陵兰岛的目测面积要比实际面积大得多。麦卡托地图缩小了非洲大陆实际面积,有意或者无意地影响了人们从地缘、历史、政治等层面看待陆地的思维方式……
增删文字也是常见的曲解数据的手法。例如
仔细玩味以下句子: 22%的鲨鱼攻击事件是致命的。 仅有22%的鲨鱼攻击事件是致命的。 加上“仅有”(only)一词,我们就不会很重视其后的数据——这是歪曲数据的另一手段。正如劳动局的统计员所阐释的,“仅有”一词激发了一种对某些与众不同的事物的不切实际的期待。
下面是一些直接摘自美国农业部的网站的参考资料:
销售日期(Sell-By date)是要告诉店家展销商品需要多长时间。你们应该在过期前购买商品。
在此日期或此日期前食用最佳(Best if Used By or Before),该日期用来给那些想要获得最佳口感及质地的消费者提供建议。它不是购买日期或者安全食用日期。
保鲜期(Use-by date)即产品质量能够保持峰值的最后日期,该日期由产品制造方确定。这就是说,美国农业部通常会建议人们根据保鲜期食用食品,也建议将鸡蛋置于冰箱的冷冻室里,而不是放进冰箱就行。
因为这三种类型日期——三者都不是真正的保质期——人们很容易对隐藏在数据背后的含义困惑不解。实际上,根据美国自然资源保护委员会(NRDC)引自食品营销协会的研究结果来看,对日期的困惑“致使90%的美国人扔掉了本不该扔的食品”。
所谓“保质期”这一说法在小数据领域为人们上了精彩的一课,因为它阐明了解数据所代表的含义有多重要。食品制造商没有歪曲“保质期”,但是人们理解数据的方式则可能使很大一部分预算付诸东流。
- 碰到图表时,仔细观察x轴和y轴。简单调整比例、高度或单个(或者两个)数轴的其他方面来传达出完全不同的信息
- 留意语言表达。
- 核实信息源。
- 确保数据无误。工作做完要仔细检查一遍,检查完毕后,再检查一遍。
- 正确解读数据。有时数据没有错,但是会因为人们的草率、无知等因素被误解。
第七章 筛选数据需要“摘樱桃法则”
摘樱桃法则意味着你从数据中挑选吸引人眼球的例子来证明自己的观点,同时无视那些可能跟自己观点相悖的数据。
“摘樱桃”一词源于人们伸手从树上采摘樱桃这一肢体动作。[1]设想一下你在樱桃园里,站在梯子上,手里提着桶,为的是摘下满满一桶能够在市场上销售的樱桃。这样你会略去被碰伤或未成熟的那些,只摘下色泽最佳的装满整个桶。
假设有一家小餐馆,从中午到晚上都营业。某一天,餐馆老板每逢整点就数一下就餐人数,得出以下数据:
上午11点——2人
中午12点——25人
下午1点——30人
下午2点——3人
下午3点——0人
下午4点——2人
下午5点——28人
下午6点——35人
晚上7点——5人
晚上8点——3人
次日,一位有意盘下这家店的人来到店里,想了解一下生意怎样。“非常棒,”老板说道,“中午及晚上时间全部满员——队都排到门外面去了!”那人离开了,准备出高价盘下这家小餐馆。
过了一会儿,餐馆的房东走过来,告诉餐馆老板她要涨一倍房租。“您行行好吧!”老板说,“餐馆大部分时间连个人影都看不到!”
当然,两种说法百分之百都是真的——但也百分之百都对数据做了筛选。如果你只看中午、晚上就餐高峰期的数据,餐馆座无虚席;若你只看中午和晚上之间的时段,餐馆几乎空无一人。同样的数据——筛选出的不同的样本——也就带来了极其不同的结果。
记住:如果你在任意选择你想要的数据来支撑自身观点,那你可能就是在筛选数据。
- 不论何时,在观察或者使用数据的时候,阅读小字。
- 思考一下,数据是否是以随意(或者非随意)的方式选取出来的
- 问问是否缺失了什么数据。
- 不要赋予任何数据超出其自身的意义。
- 对数据的来源多打个问号常常大有裨益。
第八章 为什么福岛事故是可以预防的:
预测建立在一个看似简单的问题之上:立足过去,我们能预知未来吗?只是这个问题一点都不简单。
预测误差跟抽样误差是两回事。
- 知道预测未来取决于对过去(或者模型)的了解。
- 存在不同类型的预测——尤其是,确定性预测和可能性预测。
- 了解术语。
- 知道预测的准确性可能会随着时间变化。
- 允许某种程度的不确定性存在。
第九章 拨开数据的迷雾:总结
- 当你看到、听到数据时,要学会识别数据。
- 确保事实正确。
- 了解数据来源,以及展示这些数据的人是谁。
- 留意明显的数据陷阱。
- 要知道,正确解读数据能够帮助你做出更好的决定。