都说“学好数理化,走遍天下都不怕”,我觉得极端一点理化也可以不要,但数学那是必须会的,并不用多高深,加减乘除也就够了。如果非要再加一点,那我推荐统计学——从微观量子到宏观世界,都在偶然中蕴藏着的必然——也就是概率,这种美妙的联系似乎反映了世界的一些本质。
几年前初看“大数据”相关书籍的时候,惊叹于“数据挖掘”的魔力——依靠海量数据和计算机强大的算力,人们甚至可以在不理解“因果关系”的情况下,凭借数据的“相关性”进行各种决策。
然而进一步的思考带来了新的问题:“相关性”能代替“因果性”么?数据本身不会说谎,但是对数据的加工呢?有一些看似无懈可击的分析结论,为什么自己运用的时候又不灵了?
最近读完《简单统计学》,书里通过生动有趣的例子,让这些问题或多或少得到了解答。这里把一些印象比较深刻的概念简要地总结摘录一下,为了避免太冗长(其实是懒得打字排版),许多举例部分使用了从网上找到的外链。
为了解释眼前事务的内在愿望导致的认知错误
人类自古以来演化出模式识别技,让我们对观察到的现象进行直观解释,然而在面对现代社会的复杂数据常常是失效的,但我们对确定性的渴望导致我们:
- 很容易被模式以及解释模式的理论引诱(即使实际上并不存在这种模式)
- 紧盯着符合理论的数据,而忽略了与理论有矛盾的数据(甚至是故意篡改和筛选)
针对第1点的一个有趣的例子:塔纳岛的土著
二战胜利后,美军撤离了该岛,但是岛上的原住民非常希望能再多得到一些文明社会的生活物资,所以岛上的土著们纷纷开始模仿起美军士兵的行为来向他们心目中的神明祈祷,比如扛着枪行军,进行升旗仪式,带着自制的眼镜看树叶子(其实是在模拟看文件),他们还用木头做了一架假飞机,因为他们觉得之前他们见到的那些钢铁巨鸟可能是雄性,他们做了一架母飞机,可以把雄性飞机吸引过来交配。
针对第2点,体现在我们对统计显著性的迷信。
在我们掌握了“大数据挖掘”的能力之后,统计显著性不再仅仅是为了验证理论对两组对照数据进行比较的指标,研究人员开始用两种方式来“发现”统计显著性。
- 检验无数种理论,将结果中出现“统计显著性”的部分提取出来,而忽略其余的检验结果。(即使毫无价值的理论也会有1/20出现显著性)
- 在海量数据中寻找具有统计显著性的“数据模式”,再根据这个模式提出“理论”,让理论符合数据。
还有不少研究人员为了结果故意篡改、加工原始数据,这样产生的理论就更不可信了。要揭穿这些伪理论并不难,我们只需要两个武器:
- 常识。(有些胡诌的理论应该一眼就能发现,比如“入选棒球名人堂会减寿5年”)
- 使用新数据来对这种理论进行检验。
然而并不总是有人这么做,因为:
毕竟,你无法通过验证他人的实验而成为明星。所以,为什么不把时间用于发现新的理论呢?
总的来说,我们有意或无意地使用不适合进行比较的数据作为对照或进行分析,以发现或验证某种(可能并不存在的)模式,从而导致了一系列的认知偏差。
自选择偏差
当数据涉及人们的选择时,就会出现自选择偏差。在这种情况下,对于做出不同选择的人进行比较的做法是靠不住的。……做出不同选择的人本身可能就是不同的。
举例:
一个大学教授通过在学校附近酒吧的调研,发表了一项研究结果“以桶为单位要啤酒的人喝下的啤酒是以杯为单位要啤酒的人的两倍”,于是他建议如果禁止以桶为单位提供啤酒,就可以减少因为饮酒造成的问题。
在这项研究中,教授忽略了他比较的“以桶要酒”和“以杯要酒”的人本身就存在系统性的差异,前者很可能就是想要“一醉方休”,所以禁止桶装酒显然也于事无补。
如何避免
通过使用对照组随机分配的方式,可以避免这种自选择偏差,然而实际研究中,往往并不能强迫人们去做自己不愿意的事情,所以我们在检查统计结果的时候要格外小心。(幸好如此)
幸存者偏差
当我们使用回溯性数据来分析问题时,往往存在幸存者偏差。
举例:
飞机弹孔问题、“成功学”
如果仅仅根据返航的飞机上的弹孔分布,来研究该加强飞机的哪部分时,就忽略掉了“飞机被击落”这个筛选的过程。也就是说,能返航的飞机都是躲过防空炮火筛选的、没有受过致命伤的。
许多“成功学”的书籍也存在这类问题,它们常常选取一批“截止成书”为止十分成功的公司或人,总结提炼他们的共同点,作为成功的原因,告诉大家只要如此做就可以像他们一样。
如何避免
考虑问题时要考虑到我们没有看到的那部分。同时对于成功原因分析,应当从过去开始并向未来展望,看看未来发生了什么。
安慰剂效应
人们在接受治疗后,仅仅出于认为应该改善的期待而感觉到病痛缓解。
参见:安慰剂效应
如何避免
控制其他变量仅仅比较“用药”和“不用药”的差别,对于一些医疗场景下很难有效控制的情况,人们设计了大样本随机双盲实验,尽可能消除其他因素的影响。
也可以看看关于循证金字塔的相关解释,了解各种研究设计和证据质量。
比率的问题
比较比率时忽略了基数。小基数的比率变化会很剧烈,并且容易受到干扰,和大基数的比率并不具备可比性。
比率比较中聚合、分解数据的问题。
第1点很容易理解,特别是统计中总会有一些异常数据,对于小基数影响特别大。
第2点有时候就不是那么直观,当我们在统计时对数据进行聚合和分解,可能产生一意想不到的差异。可以看下下面的例子。
谁是更好的击球手?
从这张图的对比数据来看,吉米无论在单日还是双日的安打率都高于科里,似乎毫无疑问吉米是比科里更优秀的击球员。但是……且慢,让我们看看具体数据:
当我们把数据整合起来,突然看到情况发生了逆转,科里的整体安打率高于吉米。
那究竟谁是更好的击球手呢?应该还是科里,因为分解数据使用的“单双日”只是数据拆分的一种巧合而已,整体安打率才是一个选手优秀程度的表现。
所以当我们使用比率进行统计分析和比较的时候,一定不能忽视比率背后数据,以及刚才例子中“单双日”所代表的的混杂因素。
辛普森悖论与“混杂因素”
辛普森悖论:当聚合数据被分解时,数据呈现的模式发生逆转。
前面提到的击球手的例子正是如此,如果我们反过来看,先看整体安打率,再分解为单日、双日,就会发现模式确实发生了逆转。上例中的问题在于,用于分解数据的“单双日”并不是一个有效的“混杂因素”,这种区分本身没有任何意义。但是有时候,能够准确识别“混杂因素”,对数据分析有巨大的意义。
举例:
统计表明,瑞典相对于哥斯达黎加,女性的整体死亡率更高。这是为什么?
乍一看这个结果确实出乎意料,高福利生活普遍更优渥的瑞典怎么会死亡率更高呢。当我们认识到这个统计背后的一个关键混杂因素——年龄,问题就清晰了。
更发达的瑞典拥有更多的老年女性,而死亡率和年龄是有密切关系的(老年人死亡率显然更高),因此对比时我们要把这个混杂因素考虑进去,当我们按年龄段分解对比两个地区时,就会发现瑞典在每个年龄段上的女性死亡率都低于哥斯达黎加了。
如何避免
在我们利用数据来得出理论和结论的时候,要特别小心,注意数据背后是否有自选择偏差或是未被发现但有实际意义的混杂因素,只有将他们分解出来再进行对比才能真正确认理论的因果是否合理。
在这里我们还要警惕证实偏差:指当人确立了某一个信念或观念时,在收集信息和分析信息的过程中,产生的一种寻找支持这个信念的证据的倾向。要做到不先入为主的客观思考,才能更好地发现数据的本质。
概率
“概率只不过是以计算形式体现出来的常识而已”——西蒙·拉普拉斯
- 蒙提霍尔问题——我们要仔细分辨一个行动是否真的对概率造成影响。
- “假阳性问题”——为什么说对于罕见病,去做定期筛查的意义并不大。
- 星期二男孩——网上对这个问题的讨论也是铺天盖地,本书的结论与普遍公认的答案不太一样,我觉得更符合常识,特别是“反过来思考的方式”。
- 大数定律——大数定律本身不难理解。我一直想知道的是,到底多大的数可以算到“大数”?答案可能是:多大都不一定够大。
- 小数定律——各种“巧合”、彩票号码的“规律”、Apple的“随机”算法、错误的“平均定律”。总的来说就是:随机并不意味着“均匀”
均值回归
当学术能力或运动能力等特点得到不完美测量时,观测到的表现差异会夸大实际能力的差异。表现最优秀的人与平均水平的距离很可能不像看上去那样遥远,表现最为糟糕的人也是如此。他们随后的表现将会朝着均值回归。
均值回归也不意味着能力向均值收敛、大家很快就会具有平均水平,它仅仅意味着极端表现在经历好运和霉运的群体之间轮换。好运当然不会永远持续,但是不要认为好运会提高厄运的可能性,反之亦然。
其它
书里还有一些有意思的内容,限(yin)于(wei)篇(wo)幅(lan)没法一一摘录出来,即使摘录出来的部分,书中的一些数据图表和小故事也值得一看。
总之,我给4.5星,推荐阅读(最后几章的内容和理论似乎有些重复)。