文丨云海
格罗夫纳(Charles Grosvenor)曾经说过:“数字不会说谎,但说谎的人会玩弄数字。”大数据时代,数据在我们的日常生活中几乎无处不在。然而,诸如美国多次民调的预测与最终总统选举结果相左的事实一再提醒我们,数据在看起来准确、清晰、客观的表象下面,真实的情况往往可能是大相径庭的。
荷兰计量经济学家、数据分析记者桑内·布劳(Sanne Blauw)在《数据如何误导了我们 : 普通人的统计学思维启蒙书》一书中就指出,许多数据根本没有表面上看起来那样客观公正,反而常常是被人有意操纵来误导我们。
人们大规模使用数据的历史,始于19世纪,南丁格尔就是世界上最早用图表显示数据变化的人之一。得益于数字标准化、大规模数据采集和数据分析这三个重要发展阶段,南丁格尔等人才能够在数字风潮兴起的时代,体验到数据客观、有说服力的好处。
然而,数字标准化、大规模数据采集、数据分析这三个至关重要的步骤,并不总能被永远正确地执行。一旦出错,往往就会导致严重的错误,这是数字的坏处。作者用智力测试的案例,向我们展示了数字的局限性:数字背后隐含着人们的价值判断;并非所有事物都能被量化;衡量同一件事的方法有许多种;有很多事情数字并不会告诉我们。
我们测量一个人的智力水平时,需要借用智商这个抽象的概念。为了测量智商,首先需要对它进行标准化,也就是需要研究者去选择一些测量智商的指标。这样操作的后果是,测量得出的数字可能是客观的,但在标准化背后的人为决定,则往往带有主观色彩,导致测量出来的结果与客观真实情况可能相距甚远。
其中的原因之一是,人们可以采取各种不同的方法或口径来测量同一个概念。比如,联合国粮食及农业组织(FAO)曾将“饥饿”定义为:一个人在一年内摄取的卡路里过少,即为营养不良。2012年,FAO又提出了另外一种定义的饥饿的计算模式,最后得出的数据也不一样。这就造成了一种现象,全球饥饿人数在不同的情况下,可能出现增长或减少两种截然不同的结果。也就是说,“饥饿”的情况如何,很大程度上取决于你如何定义“饥饿”。
同样的情况也出现在智商的例子里。在过去几十年里,智力测试的内容每隔一段时间就会更新一次。这就出现了一个令人惊讶的结论:人类的智商在19世纪是逐渐升高的。而这个结论的荒谬之处在于,如果用当前的衡量标准重新计算,那么,前几代人的得分都在70分附近,而这个数值意味着智障。
同时,作者还在书中反复强调,之所以不要盲信数字,还因为如何解释数字背后的意义,取决于数字使用者的理念或需求。2017年,烟草巨头菲莫公司曾宣布每年向一个名为“无烟世界”的基金会捐资8000万美元,由于烟草业与公共卫生之间存在的根本利益冲突,此举引起了世界卫生组织的强烈反应。因此,作者提醒我们,数字不等同于事实,数字只是我们理解现实的一种工具。
那么,我们应该如何解读数字,才能避免被数据误导呢?作者在揭示获取数字的调查统计过程中可能犯的6个关键错误(第三章)后,提供了几个鉴别数据是否可信的方法:(1)问问自己:”对于这个数字,我的感受是什么?“,因为那些容易引起人们有所感触的数据更容易被滥用。(2)多动一下鼠标,继续深入调查。(3)接受数字的不确定性,数字只能显示一个大致的轮廓,那些固守信念的人永远不会接受新的信息,也不是好奇心很重的人。(4)警惕数字背后的利益冲突,先弄清楚,这份数据是谁提供的?数据的结果与此人存在利益关联吗?
值得关注的是,为了更好地帮助读者识别新闻中的数字正确与否,书中最后一章还提供了一份包含6个问题的核对清单,提升了该书的实操性,可以说是全书内容浓缩的精华。