统计数字会撒谎——人行面试读书

1.内在有偏的样本

样本有偏——样本会倾向于某种选择,不能代表总体
例子:在《文学文摘》的例子中,与希望代表的全体选民相比,由于偏向了比平均选民收入更高、受过更多教育、信息面更广、反应更快、举止优雅、行为保守、更多固定吸光等特点的群体,而产生了误差。

分层抽样——需要将总体按照事先已知的优势比例划分出不同的组。

总结
  • 为了确保结论有价值,根据抽样得出的结论一定要采用具有代表性的样本,这种样本才能排除各种误差
  • 无形的误差与有行形的误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑
  • 最基本的样本是随机样本,它是指完全遵循随机原则从总体中选出的样本。总体即形成样本的母体
  • 随机样本的检验方法:总体中的每个名字或每个事物是否具有相同的几率被选进样本?
    纯随机样本是惟一有足够有把握经受统计理论审查的样本,获得这种样本的难度很大并且十分昂贵。分层随机抽样是一个更经济的替代品,目前在民意调查和市场研究等领域中得到了广泛的应用。

2.精心挑选的平均数

年收入低于5000英镑所占的比例超过了95%,在收入曲线上朝左边拖出了一条长长的尾巴。(均值与中位数相差甚远)

总结

当看到某个平均收入时,首先问问:是什么的平均?包括了哪些人?

3.没有披露的数据

“为了得出这个结论,你调查了多少名被访者?”
显著性检验方法——一种反映检验数据以多大的可能性代表实际结论、而不是代表由于机遇产生的其他结论的方法。
通常情况下,单凭一个平均数来描述事物过于简单,起不到作用,不管这个平均数是均值还是中位数。
当遗漏了上述的重要数据时,我们需要对平均数、图表或者趋势保留一些怀疑。

4.毫无意义的工作

  • 我们可以定量地衡量你的样本能以多大的精度代表总体,那就是:可能误差和标准误差
  • 在所有抽样研究中都有误差,忽略这些误差将导致一些愚蠢的举动
  • 只有当差别有意义时才能称之为差别

5.令人惊奇的图形

6.一维图形的滥用

  • 数字全是2:1,但视觉效果却是4:1,而在大多数时候视觉效果起着决定性的作用

7.不完全匹配的资料

“以每小时70赢利的速度疾驶在高速公路上,当时的时间如果上早上7点,那么你生还的机会将上晚上7点的4倍”
晚上的车祸比早上多,仅仅上因为晚上有更多的车和人在高速公路上行

“在美国和西班牙交战期间,美国海军的死亡率上千分之9,而同时期纽约市居民的死亡率上千分之16,证明参军更安全”
这两组对象是不可比的。海军主要由那些体格健壮的年轻人组成,而城市居民包括了婴儿、老人、病人,他们无论在哪儿死亡率都比较高。

总结
  • 不完全匹配的资料是一种保证你处在有利位置上的武器,而且屡试不爽
  • 事情总是表里不易,在民意调查中尤甚
  • 搜集这样的资料,却把它说成是那样一回事,这种挂羊头卖狗肉的行为还有许多其他的形式。一般的做法是将看上去极像、而完全不同的两件事情混淆在一起

8.相关关系的误解

所谓的“相关”往往 是通过“相关系数”这个令人心服的精确数值,来证明事物之间存在的关联关系,它可以有多种不同的类型。

一种相关是由于机缘巧合而产生的。由于偶然性收集数据证明其相关,但重新收集数据后则无法证明相关的结论。(任意两个事物或两组特性之间,在利用小样本后,都能建立显著的相关关系)

联合变动的一种普遍形式是存在着真实的关系,但却无法确定何为因何为果。有时因果可以不时地交换位置,或者实际上互为因果。

最富戏剧性但是虽然所有变量相互间没有任何影响,但是的确存在着显著的相关。(抽烟者与成绩的不好)

总结
  • 两个事物之间的关联关系并不能用于说明其中一个将引起另一个的变化
  • 相关显示了一种趋势,而这种趋势通常并不是那种一对一的理想关系

9.如何进行统计操纵

任何建立在小样本容量上的百分数都可以能产生误导,直接给出调查对象规模(样本容量)的大小将更有价值

50%的削减量需要通过提高100%才能加以补偿

变换基础还能产生增加折扣的幻觉(50%的折扣再打20%的折扣时,并不意味着70%的折扣,实际上只有60%)

将一些看似能直接相加却不能这样操作的事情加在一起,会产生大量的欺骗和隐瞒(一年365天,减去1/3即122天作为休息时间,再减去约45天作为一日三个小时的进餐时间,余下的198天中再扣除90天度暑假,21天过圣诞节和万圣节,余下的时间连过星期六和星期天都不够)

10.如何反驳统计资料

1.谁说的?
首先要寻找偏差
(1)有意识的偏差——错误的陈述、含糊之词、挑选适合的数据;测量标准的改动(比较时,一次采用某年为比较年份,另一次却使用更有利的年份);使用不正确的测量方法(比如简单的使用‘平均数’)
(2)无意识的偏差——

2.他是如何知道的?
看样本是否有偏(可以挑选有利的样本造成有偏),样本是否足够大
相关系数:数值是否足够大,从而能解释问题?观察值是否足够多,从而保证结论的可靠性?

3.遗漏了什么?
当看到一个指数时,或许应该关心遗漏了什么。
一个经过挑选的基期将会扭曲事实(利润指数上升得快的原因是因为萧条时期利润指标几乎达到谷底,于是基期数值相对较小)
遗漏了引起变换的原因(4月零售额高于去年,以此来证明经济处于复苏阶段,遗漏的内容是去年的复活节在3月,而今年在4月)

例子——“最近25年癌症死亡人数增多”
影响癌症的死亡人数:以前许多“病因不明”的案例现在已经确诊为癌症;尸体剖解成为一种经常使用的方法,便于做出更确切的诊断;医学统计资料的报告和编织更加全面;易发病年龄段的人数增多;现在的人数已远远超过了从前

4.是否有人偷换了概念?
定义的变化(按照5年前的定义,当年中至少30万个农场是不能被成为农场)
如果数据是建立在人门口头回答的基础上,会发生许多怪事(将囚犯所有的生活费与酒店的房租进行比较)
将“相关关系”偷换成“因果关系”

4.这个资料有意义吗?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容

  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,575评论 1 58
  • 一、内在有偏的样本 1、抽样:只要样本足够大,并且具有代表性,多数情况下,样本的信息可以很好地代表总体。但如果条件...
    IvanHung阅读 1,540评论 0 1
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,685评论 0 3
  • 偶然从图书馆搜得一本书,作者[美]达莱尔`哈夫。 作为一本经典的统计故事书,易读性比较强,各章都简单明了的用例子给...
    白菜帮子阅读 1,041评论 0 0
  • 操作环境:Windows10操作系统,ST3build3026 第一步:在 ST3 安装 CTags 插件 1. ...
    Wallys阅读 8,699评论 2 6