#2018001《统计数字会说谎》

本书着重说明了统计数字的八种说谎方法,现在对其中最常用的四种进行说明:

1 样本偏差:选取的样本不对或故意不对,导致统计特征得不到反映,比如:用高端商务杂志的问卷调查回执进行统计,就会导致遗漏了普通大众的情况,统计结果就不准确了。

2.平均数的迷局:平均数有好多种类型:算数平均数、中位数、众数。如果统计一个5人小团体的平均收入,5人的收入分别是1万,10万,10万,20万,1000万。把收入汇总除以5得208.2万,于是说大家的平均收入是200多万,明显是不合理的,而这208.2的数字就是算数平均数。那中位数是什么呢?就是把数字如上所示,从小到大依次列开,取最中间的那个数。这个案例里,就是10万。众数呢?众数就是最众多的那个数值,这个案例里,10万有两个,其余数值都是1个,所以众数也是10万。10万作为组数据的平均数就显得合理多了。

3.隐藏重要数据:在哥本哈根会议上就有黑客黑进了方式做统计数据的电脑里,发现统计的时候有人刻意采用和人类活动数据最贴合的统计数据,得出人类活动与大气变暖的强相关结论,以此推动哥本哈根会议上碳排放交易的谈判。这就是典型的隐藏重要数据的手法。

4. 混淆相关性:比如有人发现:医院是癌症之后的又一大人类死因,这一听就很可笑。明明是人们在医院死亡,怎么能说医院是死因呢?而现实生活中这种手法非常常见。比如调查差生,发现吸烟率很高,就说吸烟导致智商欠费。而如果他们调查成绩优秀的学生,发现吸烟率也很高,是不是就要得出吸烟促进智商的结论了呢?

统计的陷阱处处都是,我们如何才能避免陷入这些陷阱呢?要多问问题,问问是谁发布了这些结论?他们的统计结果是怎么得来的?有没有重要数据被遗漏?有没有因果关系被混淆?鉴别的方法说起来容易,到要时时到做却很难,还需要我们在实践的过程中不断总结和提高辩识能力。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 启发:我们需要从数据挖掘出背后的真实原因,单纯的数据呈现,就有可能出现得到有偏差的结论,甚至导致制定错误的计划。 ...
    szy916阅读 698评论 0 1
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,916评论 0 3
  • 5月10日,读完了达莱尔·哈夫的《统计数据会撒谎》。 之前就知道这是本已出版几十年的统计数据科普经典,却没想到...
    River小姐姐阅读 1,511评论 0 3
  • 静静的阅读和书写中 思想和灵魂便有了融合 就像沿着脉络 心灵的足迹流趟进生命里 属灵的契合 足矣忽略不计其他太多 ...
    蔓YOYO阅读 206评论 0 0
  • 大厦千栋屋万家,寻觅方庭到炳胜。夜来晚餐菜几样,闲若香兰吐芬芳。一家老小新城荟,三代同桌粤菜鲜。窗外绿树掩映霞,已...
    甘朝武阅读 109评论 0 0