数据欺骗与陷阱

过年回家，事情较多，基本没有时间静下心来学习。家中电脑实在是有点落后，不足以让我实践学习完成总结。思前想后，记一篇我最早学习数据分析时的了解的数据欺骗来充当作业。我在一开始学习数据分析的时候读了一本叫《简单统计学》的书，此书通过10多个生动鲜活的故事，层层揭露了数据背后的欺骗和陷阱。下面就是我觉得比较有意思的故事分享给大家。

故事一：幸存者假设

二战期间，英国皇家空军计划在飞机上安装厚钢板，以帮助它们抵抗德国战斗机和陆基高射炮的攻击。他们调查并收集了飞机上子弹孔的位置，发现大部分都位于机翼和飞机尾部，而在驾驶舱、发动机和油箱的位置则非常少。于是决定把钢板装在机翼跟飞机尾部。

乍一看，这样一个完整根据数据得到的修改结论。有理有据，好像令人信服。但实际情况呢这个结论是错误的，因为它使用的数据全部基于在战斗中成功返回的飞机，那些在驾驶舱、发动机、油箱等位置被击中的飞机全部都无法存活下来。这就是数据的"幸存者偏差"造成的错误结论。不仅如此现在的互联网营销也经常的使用幸存者假设来欺骗消费者。聪明的消费者，应该明白幸存者偏差产生的原因，以及对统计结果可能造成的扭曲。我们应该以科学严谨的态度看待“幸存者偏差”这个问题，尽量不让这样的统计花招迷惑了自己的双眼，不让自己成为这些销售技巧忽悠的对象。

故事二 : 抽样问题的样本选择

1936年，民主党人艾尔弗雷德兰登与时任总统富兰克林·罗斯福竞选下届总统。《文学文摘》这家颇有声望的杂志承担了选情预测的任务。之所以说它“颇有声望”，是因为《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中，成功地预测总统宝座的归属。

1936年，《文学文摘》再次雄赳赳、气昂昂地照办老办法——民意调查，不同于前几次的调查，这次调查把范围拓展得更广。当时大家都相信，数据集合越大，预测结果越准确。《文学文摘》计划寄出1000万份调查问卷，覆盖当时四分之一的选民。最终该杂志在两个多月内收到了惊人的240万份回执，在统计完成以后，《文学文摘》宣布，艾尔弗雷德?兰登将会以55比41的优势，击败富兰克林·罗斯福赢得大选，另外4%的选民则会零散地投给第三候选人。

然而，真实的选举结果与《文学文摘》的预测大相径庭：罗斯福以61 比37的压倒性优势获胜。让《文学文摘》脸上挂不住的是，新民意调查的开创者乔治·盖洛普，仅仅通过一场规模小得多的问卷——一个3000人的问卷调查，得出了准确得多的预测结果：罗斯福将稳操胜券。盖洛普的3000人“小”抽样，居然挑翻了《文学文摘》240万的“大”调查，实在让专家学者和社会大众跌破眼镜。《文学文摘》的失败在于，取样存在严重偏差，它的调查对象主要锁定为它自己的订户。虽然《文学文摘》的问卷调查数量不少，但它的订户多集中在中上阶层，样本从一开始就是有偏差的（sample bias），因此，推断的结果不准，就不足为奇了。而且民主党人艾尔弗雷德?兰登的支持者，似乎更乐于寄回问卷结果，这使得调查的错误更进了一步。这两种偏差的结合，注定了《读者文摘》调查的失败。这个事件大家应该都有所耳闻，统计学上会将这个问体归结到选择偏倚上。如过单是这一次的原因是可以归结到这个问题上。但大家注意到没有，在预测失败这次前面有4次成功的预测，这四次给《文学文摘》预测正确给，第五次的预测带来了什么？我们无法知道他们当时的心里状态。也许当时他们被他们自己骗了

我始终相信一句话：数字不会骗人，但人会。数字没有人的定义什么都不是。

数据欺骗与陷阱

数据欺骗与陷阱

相关阅读更多精彩内容

友情链接更多精彩内容