数据欺骗与陷阱

    过年回家,事情较多,基本没有时间静下心来学习。家中电脑实在是有点落后,不足以让我实践学习完成总结。思前想后,记一篇我最早学习数据分析时的了解的数据欺骗来充当作业。我在一开始学习数据分析的时候读了一本叫《简单统计学》的书,此书通过10多个生动鲜活的故事,层层揭露了数据背后的欺骗和陷阱。下面就是我觉得比较有意思的故事分享给大家。

故事一:幸存者假设

   二战期间,英国皇家空军计划在飞机上安装厚钢板,以帮助它们抵抗德国战斗机和陆基高射炮的攻击。他们调查并收集了飞机上子弹孔的位置,发现大部分都位于机翼和飞机尾部,而在驾驶舱、发动机和油箱的位置则非常少。于是决定把钢板装在机翼跟飞机尾部。

   乍一看,这样一个完整根据数据得到的修改结论。有理有据,好像令人信服。但实际情况呢这个结论是错误的,因为它使用的数据全部基于在战斗中成功返回的飞机,那些在驾驶舱、发动机、油箱等位置被击中的飞机全部都无法存活下来。这就是数据的"幸存者偏差"造成的错误结论。不仅如此现在的互联网营销也经常的使用幸存者假设来欺骗消费者。聪明的消费者,应该明白幸存者偏差产生的原因,以及对统计结果可能造成的扭曲。我们应该以科学严谨的态度看待“幸存者偏差”这个问题,尽量不让这样的统计花招迷惑了自己的双眼,不让自己成为这些销售技巧忽悠的对象。

故事二 :  抽样问题的样本选择

1936年,民主党人艾尔弗雷德兰登与时任总统富兰克林·罗斯福竞选下届总统。《文学文摘》这家颇有声望的杂志承担了选情预测的任务。之所以说它“颇有声望”,是因为《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中,成功地预测总统宝座的归属。

1936年,《文学文摘》再次雄赳赳、气昂昂地照办老办法——民意调查,不同于前几次的调查,这次调查把范围拓展得更广。当时大家都相信,数据集合越大,预测结果越准确。《文学文摘》计划寄出1000万份调查问卷,覆盖当时四分之一的选民。最终该杂志在两个多月内收到了惊人的240万份回执,在统计完成以后,《文学文摘》宣布,艾尔弗雷德?兰登将会以55比41的优势,击败富兰克林·罗斯福赢得大选,另外4%的选民则会零散地投给第三候选人。

然而,真实的选举结果与《文学文摘》的预测大相径庭:罗斯福以61 比37的压倒性优势获胜。让《文学文摘》脸上挂不住的是,新民意调查的开创者乔治·盖洛普,仅仅通过一场规模小得多的问卷——一个3000人的问卷调查,得出了准确得多的预测结果:罗斯福将稳操胜券。盖洛普的3000人“小”抽样,居然挑翻了《文学文摘》240万的“大”调查,实在让专家学者和社会大众跌破眼镜。《文学文摘》的失败在于,取样存在严重偏差,它的调查对象主要锁定为它自己的订户。虽然《文学文摘》的问卷调查数量不少,但它的订户多集中在中上阶层,样本从一开始就是有偏差的(sample bias),因此,推断的结果不准,就不足为奇了。而且民主党人艾尔弗雷德?兰登的支持者,似乎更乐于寄回问卷结果,这使得调查的错误更进了一步。这两种偏差的结合,注定了《读者文摘》调查的失败。这个事件大家应该都有所耳闻,统计学上会将这个问体归结到选择偏倚上。如过单是这一次的原因是可以归结到这个问题上。但大家注意到没有,在预测失败这次前面有4次成功的预测,这四次给《文学文摘》预测正确给,第五次的预测带来了什么?我们无法知道他们当时的心里状态。也许当时他们被他们自己骗了

我始终相信一句话:数字不会骗人,但人会。数字没有人的定义什么都不是。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 提起大数据想必大家不会陌生,同时又有很多问题!什么是大数据?大数据来自哪里?大数据有什么用?等等太多有趣的问题。 ...
    蝉知道阅读 586评论 0 0
  • D1 打坐小思考 第一天正式打坐,因为之前有过经验,所以时间设置的有点长,定了25分钟。起床后担心跟以往一样继续...
    吴荣常阅读 1,005评论 1 0
  • 1、庆元大道 七月的黄昏,天空明艳绚丽。夕阳刚刚坠入群山,余晖在天边涂下了重彩,云霞斑驳...
    丽水他他阅读 801评论 1 4
  • 在日月轮回之间,开启了戊戌年的历程 作为普通公司的守白艺术 在年初七正式在戊戌年开门迎客 新一年开工大吉,刷遍了大...
    明星梦APP阅读 231评论 0 0
  • 写在前面的话:我这里不主要谈论读书到底有用还是无用。记住一点就够了:读书是一种破茧成蝶的过程。 学习与成长是我们身...
    至金阅读 341评论 0 0