在如今这个数字化时代,常有人说“数据为王”。脱离了数字,似乎就显得新闻报道不够扎实,产品效果不够真实,工作汇报不够充实。
相比文字,数字的确具有一些与生俱来的优势:它具体而明确,比起抽象的描述能更直接地传达信息,清晰明了;它简洁又直观,能将复杂的事物简单化,更容易理解和记忆;它看起来科学权威,说服力和可信度强,更容易让人接受和相信;它便于比较,能清楚直观地展示不同事物的特点、差异和联系,更方便进一步分析;它冲击力大,常常以图表等方式呈现,引人注目、抓人眼球,让人印象深刻。
数字如此不凡,然而,透过数字,我们看到的是真实的事实吗?
某所学校的升学率高,是否说明它的教学水平高?
飞机失事造成的伤亡惨重,是否说明坐飞机不如坐汽车安全?
某种药物导致人们罹患某种疾病的风险倍增,是否说明应该远离?
数字只是数字,不会开口说话,不会为自己辩解。如果不对数字加以思考和解读,很可能会被表象迷惑,被有心之人误导。
如何看清数字的真相、理解它的真实意义?
这似乎是一个数学问题,我却从哲学家的思维习惯中得到了启发。
《哲学思维》的作者朱利安·巴吉尼是英国哲学家、作家,被誉为“英国畅销哲普天王”,出版了多部哲学著作。在本书中,朱利安·巴吉尼梳理了他对全球58位当代顶尖哲学家的访问,勾连起百余位哲人的思想火花,淬炼出12条清晰思考的关键原则。
通过对日常生活中大量真实案例的解析,朱利安·巴吉尼演示了如何应用这些原则解决生活、职场中的实际问题;并且给出具体普适的方法,引导我们像哲学家一样思考,辨明观点的正谬,抵御信息的轰炸,打破传统思维框架,养成哲学式思考习惯,得出更理性深刻的结论,让我们能在众生喧哗中过好自己的生活。
在“如何把握数字、如何看清数字的真相”这个问题上,启发我的哲学思维来自第三个关键原则——推敲每一个步骤。
哲学家惯于向一切据称的事实提出疑问:“它的含义是什么?它来自哪里?它会带来什么样的推论?”我们如果在面对数字时提出同样的问题,很快就能更进一步地理解它们的意义。
三个问题,三个维度;立足自身,拨开迷雾,面向未来。
立足自身:它的含义是什么?
文章之美,不在字词本身,在于遣词造句描绘的意境和故事。读文章,读经史子集,如果只看到文字而不理解其含义,如果只关心字词而不连通上下文,那么再好的书也不过是一堆没有意义的符号。数字也一样,如果不加以解读,理解数字的含义,那么数字就只是数字,只是一串没有价值的符号。
1、数字描述的对象,确切定义是什么?
说起“粮食浪费”,你想到的是什么?是餐桌上没吃完的饭菜?冰箱里过了期的酸奶?遗忘在角落里腐烂的水果?亦或者尝试失败只想丢掉的零食?
联合国环境规划署发布的《粮食浪费指数报告》对“粮食浪费”的定义可能会惊掉很多人的下巴:“粮食浪费”是指“人类粮食供应链中未被食用的食物及食物中不可食用的部分”。也就是说,果皮、果核、骨头、不可食用的根茎等等被视为厨余垃圾的部分,都属于粮食浪费的范畴。
同样是浪费10斤粮食,在不同的定义下被赋予了不一样的意义。
还有一个不太遥远的悲伤的例子。
过去几年,当看到“新冠肺炎死亡人数”时,你是怎么理解的呢?是单指由新冠肺炎导致死亡的人数?还是包含因其他疾病亡故但同时患有新冠肺炎的人数?或者包含由新冠肺炎引发的其他致命疾病发作的人数?
不同的理解方式,统计数字带来的观感、冲击力和严重程度大不相同。
了解描述对象的确切定义,才能更好地把握数字的含义。
2、数字表达的形式,要如何正确理解?
一家公司,员工的平均年薪为40万元,远高于城市平均工资,可以说明这家公司员工的工资水平不错吗?
不一定。平均年薪高,除了所有员工的薪资普遍高,还有另一种可能:极少数的管理人员享有极高的薪资,拉高了平均数,而大多数员工的薪资远远低于平均值。
618到了,一个商家在海报上印制了大大的30%off,可以说明它的商品非常优惠、值得购买吗?
恐怕有过经验的购买者都要打个问号:原价有没有提前涨过?平时送的福利有没有偷偷减掉?
总数、平均数、中位数、众数等统计数字描述了数据的不同维度和集中趋势,各有优劣,无论哪个单独出现都无法代表数据的特性和全貌;折扣率、增长率、占有率等百分比体现了数据不同的比较方式,脱离比较基准或基数范围谈论就失去了价值。
理解数字表达的形式,才能更好地把握数字的含义。
3、数字呈现的方式,是否有隐藏信息?
一家公司的季度营收曲线,3年来呈现陡峭上扬的指数型,可以说明它的业绩有巨大的跃升吗?
可能要看看坐标轴里有没有猫腻。如果横轴上的时间刻度间隔不均匀,远梳近密,或者纵轴上的营收刻度不一致,先大后小,都会造成视觉误导,让营收增长看起来比实际情况好得多,把微小的增长放大成惊人的成绩。
两位员工的评价打分,以柱形图展示差异巨大,可以说明得分高的人优势显著吗?
不好说,需要仔细观察图表中的信息。假如两人的得分分别是1100和1200,那么纵轴的起点是0还是1000,显示效果完全不同;假如一人的得分是工作能力评价,另一人的是职业道德评价,那么根本没有可比性,放在一张图里也说明不了什么。
可视化的数据中,隐藏着很多小细节,横纵坐标轴的含义、区间变化的均匀度、曲线的真实斜率、被省略的零点等,如果不多多留意,很容易被误导。
解读可视化数字的隐藏信息,才能更好地把握数字的含义。
思考数字描述的对象、表达的形式和呈现的方式,明察秋毫,把握数字的含义,看清数字的真相。
拨开迷雾:它来自哪里?
房屋的质量,与建材的好坏息息相关。如果使用劣质或来源不明的砖块、钢筋和水泥,怎么能建造出结构稳定、坚固可靠的房屋呢?数字也一样。数字的来源决定了数据房屋的稳定性和可靠性,决定了最终结果的可信度和有效性。
1、数字的来源是否可靠?
数字的来源好比建材的制造商,资深大厂和无牌小作坊的可靠度大不相同。
国家三甲医院和莆田系医院的检查结果,哪个更真实?联合国教科文组织和私立培训机构提供的调查数据,哪个更让人信任?《自然》《科学》《柳叶刀》等国际顶尖学术期刊和不知名三流学术期刊的实验发现,哪个更靠谱?
“研究表明”,是哪里的研究?“心理学家发现”,是谁(或哪个流派)的发现?“有数据显示”,是从哪来的数据?
探寻数字的来源,找到原始的出处,确定权威、靠谱、真实,数据房屋的根基才坚实。
2、数字的生产是否可信?
建材的质量受到原材料、制作工艺和检验标准等环节的影响,数字的质量同样受到数据样本、统计方式和社会因素的影响。
第一,样本数量充足吗?选取范围得当吗?数量不足、数据集狭隘等会导致数字不可信。
调查某种商品的消费者满意度,如果只选取100人就无法准确反映整个市场的情况;调查民众对某项政策的支持率,如果只询问精英白领金领则有失偏颇。
第二,时间跨度合理吗?统计方法恰当吗?忽视时间跨度、以偏概全、数据造假等会导致数字不可信。
某热带城市夏季的失业率下降10%,可能只是因为增加了大量的季节性工作,不足以说明就业情况得到了改善;某地区平均房价上涨20%,可能只是基于个别成交价远高于市场价的交易,不足以说明房价整体提升。
第三,存在社会性因素的影响吗?政治和意识形态动机、文化的潜移默化、利益相关者的干涉会导致数字不可信。
食品企业赞助的研究报告恐怕很难承认盐、糖、脂是很多疾病的来源;化工燃料企业也会努力证明他们的生产行为和产品对气候变化没有不良影响。
辨明数字的生产方式,理清数字的诞生过程,确认全面、合理、公正,数据房屋的根基才扎实。
3、数字的引用是否正当?
流转过程的把关与生产环节的把关同样重要。在电影《年会不能停》中,靠谱老厂生产的合格螺丝钉螺母被黑心经理替换成了小作坊生产的粗制滥造劣质品。数字同样需要警惕不良中间商偷梁换柱。
一是断章取义,选择性引用。
媒体大肆宣扬某种药物研究获得成功,治愈率翻一倍,却不提翻完不过30%,还伴有90%的可能产生严重副作用;网红说80%的消费者认可某个产品,却不提消费者并不了解具体情况、只是不抗拒尝试。
二是张冠李戴,篡改数据。
原始数据说“全国有60%的年轻人使用手机支付”,引用后变成了“全国有60%的人使用手机支付”;原始数据说“同比增长率6.5%”,引用后变成了“年度增长率8.5%”。
三是曲解原意,故意误导。
原始数据说“每天喝1杯咖啡可以降低患心脏病的风险”,引用后变成了“喝咖啡可以预防心脏病”;原始数据说“某种食品添加剂在实验室测试中显示了高剂量的潜在致癌性,但没有证据表明食用正常剂量对人体有害”,引用后变成了“某种食品添加剂致癌”。
留心数字的引用,摸清流转的脉络,确保完整、准确、一致,数据房屋的根基才硬实。
探究数字的来源出处、生产方式和引用形式,抽丝剥茧,把握数字的质量,看清数字的真相。
面向未来:它会带来怎么样的推论?
厉害的侦探,不仅要找得到线索、读得懂证据,还得有把线索和证据串联起来、形成严密逻辑链的能力,这样才能推导出案件的过程,指认嫌疑人。数字好比线索证据,经过分析和解读能够说明哪些问题、得到什么结论远比数字本身重要。
1、由此可证什么?
深入思考数字能带来什么样的结论才能让数字发挥作用。数字能证明什么?它能佐证什么观点?它能说明怎样的事实?它支持或反对什么问题?它想告诉我们什么?还能得到其他结论吗?
比如说:某大学就业率达到95%,某小镇去年癌症发病率高居全国第一,某城市交通事故发生率下降了15%。这些数字让你想到了什么?得出了哪些结论呢?
有时候,数字可能什么也证明不了,即便它真实可靠。为什么呢?请参考前两个问题。
2、推论是否成立?
有了推论之后,不妨再问问:推论成立吗?分析合理吗?逻辑严密吗?真的能证明吗?
有时候,我们会被有意或无意地误导,比如以下几种常见的数字统计或处理现象。
1)幸存者偏差
战争后返回基地的轰炸机上,机翼部分弹孔最多、机尾部分弹孔很少,意味着机翼最危险、需要加强装甲吗?并不是,那些被击中机尾的轰炸机大部分都坠毁了,没有返回。
网红郭有才一夜爆红,普通人只要坚持努力似乎就能够成功,真的如此吗?并不是,有千千万万的自媒体人,几年如一日依旧默默无闻。
人们忽视了看不见的失败,推导出了错误的结论,这就是幸存者偏差。
2)关系性误导
某个国家过去十年的手游用户数量和大学录取率增长趋势相似,可以得出“读大学的机会与玩电子游戏正相关”的结论吗?
冰激凌销售和溺水事故之间存在正相关关系,是否意味着“吃冰激凌会导致溺水”?
前者恐怕只是某种巧合,后者则是因为两件事都与天气变化有关。
将没有相关性的不同事物联系在一起,或者赋予某些只有相关性的事物以因果关系,是最常见的关系性误导。
3)辛普森悖论
一家公司在两次招聘中,男女申请者的录取率一致(第一次均为50%,第二次均为10%),是否意味着这家公司对男女申请者一视同仁、没有性别歧视?
不一定。假如在第一次招聘中,男性申请者有200人,录取了100人,女性申请者有100人,录取了50人,录取率均为50%;而在第二次招聘中,男性申请者有100人,录取了10人,女性申请者有500人,录取了50人,录取率均为10%。当合并两次招聘结果,就会发现,男性录取率为36.67%,女性录取率为16.67%。
辛普森悖论告诫我们,给数据分组或者合并成整体,结论可能完全相反。
思考数字证明的观点、推敲的结论和推论的真伪,见微知著,把握数字的逻辑,看清数字的真相。
哲学家的思维习惯确实厉害,小数字引发大思考。三个问题或彼此分离,或交叉缠绕。在思考之余,我们也要提醒自己:要探究,但不必过于较真。
为什么呢?因为很多时候,重要的不是精确的数字,而是数字背后的关键结论,是数字带给我们的启发、决策或行动。
举个例子。我去体检,医生检查了很多指标,发现我胆红素偏高、谷丙转氨酶偏高、血压偏高、血红蛋白偏低等等,一些看得懂看不懂的指标脱离了正常范围,但又不是那么突出。
这时候,确切的、精准的数字对我来说并没有什么意义,每个指标的准确含义我也不必完全了解。我应该得到的关键结论是:我的身体存在某些异常,目前不算大问题,但如果不注意,可能会变得严重;不良的生活习惯(晚睡、吃得油腻、喝水少等)造成了指标异常,如果我希望自己身体好,那么就有必要调整我的饮食和睡眠,保持健康的习惯。
再比如,知道全球浪费了多少粮食不是关键,关键是:粮食浪费情况有些严重;越富裕的国家浪费程度越高;有必要采取措施减少粮食浪费;缩小粮食浪费的统计范围,比如去掉不可食用的部分,得到的数据更容易让民众理解、有代入感;减少粮食浪费的潜力很大;等等。
这其实也是哲学的某种独特品质。经由哲学的思维方式,我们可能会发现,最初的问题并非最重要的问题,因此它也不必是最终要回答的问题。
说到这里,不知道你发现了吗?三个问题带来的思考方式其实不止对数字有效,同样适用于其他任何事实。
正如作者所说,“事实不会开口说话,数字尤其不善言辞”,它们很少直白地袒露心声。就像拌嘴吵架时口是心非的另一半,或者是下达任务时理所当然的领导,如果旁边还有人掺和挑唆,一旦轻听轻信,想当然、不思考,后果难以想象。
面对数字或其他任何事实,记得追问:它的含义是什么?它来自哪里?它会带来什么样的推论?
让我们培养哲学式思维习惯,用批判性思考抵御信息的轰炸,在众声喧哗中清晰思考,不被假象迷惑,看清世界的真相,过好自己的生活。
————————————————
潮汐澎湃有力,晨曦温暖有光。
我是汐曦,很开心遇见你。
读书,拆书,悦成长;
有爱,追梦,成为光。