《统计数据会说谎》读书笔记

wordrepss原文链接:《统计数据会说谎》读书笔记

《统计数据会撒谎》

how to lie with statistics

一本极为简单的入门读物,用生活中的例子介绍最常见的一些统计陷阱,所谓知己知彼,了解别人怎么撒谎,才能避免自己被误导。

第一章“带有偏差的样本”强调数据的来源,即样本的完整性,从抽样调查的角度看,就是确保抽样的样本能代表整体。“幸存者偏见”就是源自我们只关注了部分样本,忽略了其他,比如只关注“返航的飞机”而忽视“被敌人击落的飞机”(只关注幸存者而忽视逝者),比如电视上的犯罪报道会让我们以为世界是黑暗的,这是源自“不完整的样本”得出的结论。

第二章“精挑细选的平均数”介绍平均值这种典型的统计数字,推销员会根据想要的效果选择不同的平均值(均值,中位数,众数)。所以看到含有统计数据的结论时,都应该学会判断“统计数据的真正含义”,看到真正的结论。

第三章 “没有透露的小小数据” 介绍了最常见的几种数据遗漏产生的统计陷阱,最主要的是只看平均值而忽略波动范围(置信区间或显著性水平)。

第四章“无事瞎忙” 介绍的还是误差范围的重要性,强调只有显著性差异才有意义,否则都是瞎折腾。

《统计数据会撒谎》的内容都可以在《看穿一切的统计学》一书中找到对应内容。比如《统计数据会撒谎》前四章的内容都能从以下三章找到对应的内容。比如抽样调查即收集数据过程,忽略误差范围就是没有遵循“分析数据的两个原则”。

第一章介绍了统计学日益重要的大背景,这是一个数据爆炸和不确定的时代。第二章介绍如何收集数据,即“抽样调查”方法,通过“标准误差公式”强调了达到一定抽样数量后的标准误差足以媲美完全调查; 第三章介绍如何分析数据,强调了分析数据的两个原则:适当的比较,考虑误差(p值);不考虑误差的比较都是不准确的!第四章介绍了具体的统计实验方法即随机对照实验,通过随机可以控制误差,提高准确性;通过对照进行比较,比较方法同第三章;第五章介绍了广义统计方法,根据解释变量和结果变量的类型(连续值或二值)选择对应的统计方法; 第六章介绍了统计思维的几个应用场景,并强调了频率思维方式和贝叶斯思维方式的方法和使用场景。—《看穿一切的统计学》 读书笔记 – Zero

引言

第一章 带有偏差的样本

关键词:抽样调查,偏差,随机抽样,分层随机抽样

主要内容:看到一个统计结果,不要着急看它的结论,而是要留意样本是否能代表整体!!

现实中难以做到纯随机抽样,更多使用的是分层随机抽样。

精选案例:电话调查会忽略掉家里没有电话的家庭,学校毕业生信息调查也会忽略掉工作窘迫的学生,而上报自己工作的人也倾向于夸大自己的工资。

当我们拿到一个统计数据,如果数据看起来很精确,比如“耶鲁大学1924届毕业生的平均年收入是25111美元”,我们就更容易相信结果是正确的,而如果我们看到的是“平均年收入是25000美元”,我们更容易意识到是2.5万左右。 分析化学老师告诉我们,测量结果的最后一位是“估读位”,看来这也是一种直觉判断, 将之前的数字看成是准确结果。

我的补充说明: 在解决问题领域,不要着急解决问题,而是要先充分的定义和明确问题。 看到统计数据也要有类似的意识,先去回溯“数据是怎么调查而来的”。

第二章 精挑细选的平均数

关键词:平均数,均值,中位数,众数,

主要内容: 统计数据会撒谎,其中一个经典方法是,在不同的场景使用不同类型的平均数。

精选案例:卖房子时,为了引导消费者以为邻居都是富人,就是用均值;为了让居民意识到大家都很贫穷,就用均值。 对于收入这种差距很大的数据,三种平均值的差别很大,所以是一种常见的统计陷阱。 但是对身高、体重这种范围不大的数据, 三种平均值的差别就很小。

我的补充说明: 如果比尔盖茨和我们同住一个小区,小区居民的均值就会剧增成千上万倍(平均值被无限抬高),但是众数和中位数几乎不会有变化。

第三章 没有透露的小小数据

关键词:优先的样本,平均值,误差范围,小数定律

主要内容:

通过关注遗漏的数据,了解存在的统计陷阱。 本章举了几个例子,最主要的例子是,只关注平均值而不关心误差范围。 误差范围就是显著性检验中的显著性水平(95%还是99%)或置信区间。

其次,有些统计结果是使用少量的样本调查而来,所以得到了非常有利的统计结果,然后就大肆宣传。 这就是小树定律的概念,如果使用少量的样本,得到极端结果承可能性就比较大;与之相对的是“大数定律”。 更有甚甚者,如果少量样本没有得到自己想要的结果,就抛弃重新实验,直到得到有利于自己的数据。

精选案例:厂家说自己的牙膏效果更好,可能是只用了极少的样本得到的统计结果。 家长看到 孩子身高和年龄的对应关系,就基于此判断自己的孩子发育正常还是缓慢,实际这种对应关系只是一个很粗略的关系,有很大的误差范围, 但我们倾向于将具有很大误差范围的统计结果当作绝对结论来使用。

我的补充说明:这一章的两部分内容,一是有限的样本即“小数定律”,二是平均值和误差。 前者对应于抽样调查的次数和标准误差的关系,后者强调既要关注平均值又要关注误差范围。

第四章 无事瞎忙

关键词:误差范围,

主要内容:强调数据的比较需要关注误差范围,也就是上一章的内容。

精选案例: 一种智商测评,学生A得了99分,学生B得了101分,这能说明学生B比学生A聪明吗? 不能,因为测评的误差可能是+-5,所以结果之间没有显著性差异。

一个网站测试了市面上主流香烟的尼古丁等有毒物质含量,结果显示香烟之间没有显著性差异,但是某一个品牌发现自己的测试数据都比其他品牌低,因此大肆宣传“某某香烟在某某测评中证明毒性比其他香烟低”,但实际上却没有显著性差异,所以这个结论是毫无意义的。

我的补充说明:直接拿工作中的一个柔顺测试图片作为本章的例子:

2019.2.2 春节回家的高铁上,整理第二三四章的读书笔记并发表

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容