这本书是一本老书,但是非常经典,揭示了很多看似严禁的数据统计分析是如何欺骗大众的。我刚读完这本书,可以记录一下自己的心得,一方面可以学会如何不被统计数字、统计图表欺骗,一方面尝试如何有理有据的“欺骗”用户或者辅助自己得出想要的结论。
第一章、带有偏差的样本
书中举了一个例子,《时代》杂志曾指出,耶鲁大学1924届毕业生平均年收入是25111美元。书中指出这个数字不可信之处在于,样本选择一定存在偏差,无论杂志社采用什么调查方式,都不可能联系到所有该届学生,最终一定是非随机取样,比如邮寄问卷,那么如果收入水平偏低的毕业生很可能置之不理,甚至可能找不到落魄的毕业生的地址,但是那些政商名人的数据一定是容易找到的。
书里又举了一个1932年杂志预测总统大选失败的例子,因为选择的样本都是能用电话或者订阅杂志的的,这样的样本是富裕阶层,跟投票人群的偏差很大,最终预测结果跟实际投票结果相去甚远。
“如果样本的偏差与期望的结果一致,就能达到自动操纵的效果。”
样本选取时有意或无意的选择了某一类特殊样本是非常常见的。比较常见的是说法,“我的朋友都喜欢XXX,所以我认为中国人都喜欢XXX”、“我身边的人都是年薪20W起步,中国哪有收入低的人”,不仔细思考的话,可能说的人和听的人都不觉得这种说法有任何问题。
第二章、精挑细选的平均数
这章书中写的是中位数和平均数往往差距很大,比如这个街区每户收入平均数是远大于中位数的(补充:这是因为少数富人的收入水平拉高了平均值,但是对于中位数几乎没有影响),有些人在需要较高数字时,就去谈平均数;在需要较低数字时,就去谈中位数。
这段其实对我们做数据相关工作的人来说是老生常谈了,就不多说了,想到一些大公司声称其人均年薪几十万,但是实际上如果取中位数并不会高到离谱。
第三章、没有透露的小小数据
开始提到小样本算出的均值是没有意义的,或者因为阳性or阴性比例太低,导致样本虽然看起来多,但是样本乘以很小的比例,得到数值就是很低的,据此得出任何结论都是无意义的。只有显著性水平很高,达到5%甚至1%,结论才有意义。
后面提到非常能击中中国人的一点,就是家长经常因为孩子相比于所谓的“正常水平”发育迟缓而着急,实际上远离均值或中位数或众数并不总是意味着“不正常”。
第四章、无事瞎忙
这段其实说的还是显著性水平,不多谈