《为什么》第二章:因果推断的起源

如题所示,这一章主要讲解的是因果关系的历史和起源。从高尔顿的弹珠台,到卡尔.皮尔逊的相关性、到休厄尔.赖特的路径图和贝叶斯定律。

高尔顿的弹珠台:

高尔顿用这种类似弹珠台的仪器解释遗传特性,比如身高在人类中的分布基本上符合(a)这样的钟形(正态分布)。但是,这样的模型存在一个致命的缺陷,如果用若干级弹珠台模拟若干代人群的遗传特性的话,底部的钟形分布就会越来越宽,越来越散开,这意味着身高的人的后代会越来越高,身矮的人的后代会越来越矮。这不符合人类真实的高度分布曲线,1000年前没有3米高度人,现在也没有。

实际上,高个子男性的儿子往往身高也比普通人高——但总体上很可能不如他们的父辈高;矮个子男性的儿子往往身高比一般人矮——但很可能不如他们的父辈矮。除了基因遗传因子,影响身高的因素还有很多,高尔顿的模型太过简单,当然无法解释真实世界。后来有人将这种现象称之为:向均值回归。

卡尔.皮尔逊的相关性

父辈和子辈身高的分析

为了研究父辈和子辈身高的现象,高尔顿做了详细地统计和分析:


图中实线部分的意思是,当某一区间父辈的高度,对应子辈平均(可预测)的高度,它的斜率低于虚线部分,虚线部分斜率为1,也就是父辈和子辈高度一样的直线。因此,这意味着,如果父辈高了1cm,子辈并不会高1cm,而是介于0-1cm之间,这取决于实线部分的斜率是多少。这根实线也被称为回归斜率。

后来,高尔顿的弟子卡尔.皮尔逊推导出了回归斜率公式,并称为“相关系数”,现在,当我们要了解相关不同变量之间的关系,它们之间关系有多强时,相关系数是我们第一个考虑的因素。甚至,很长时间以来,统计学界将相关性奉为和牛顿定律一般的圣皋,并且将因果关系摒弃了。高尔顿在他的《科学语法》(The Grammar of Science,1892)中,这样表达因果关系:

一个特定的事件序列在过去已经发生并且重复发生,这只是一个经验问题,对此我们可以借助因果关系的概念给出其表达式……在任何情况下,科学都不能证明该特定事件序列中存在任何内在的必然性,也不能绝对肯定地证明它必定会重复发生。

皮尔逊更进一步说:“描写两个事物之间关系的终极的科学表述,总可被概括为……一个列联表(contingency table)。”

这师徒两个家伙可能走得太远了,不仅仅将因果关系摒弃了,甚至连所有的物理公理也全部否定了?物理定律不就是一个个因果关系的阐述吗?还是说,目前已知的公理也只是在等待被推翻而已?皮尔逊说:“力作为运动的因,与树神作为生长的因可以等同视之“。好了,不讨论物理公理,从反面看,却存在一些他们难以接受的所谓“伪相关性”。书中提到两个案例:

  1. 一个国家的人均巧克力消费量和该国诺贝尔奖得主的人数之间存在强相关。这种相关性显然是很愚蠢的。真正的原因是富裕的西方国家吃巧克力的人更多而已。
  2. 尤尔发现英国某年的死亡率与由英国教堂主持婚礼的婚姻在总体中的比例之间有着极高的相关性(0.95)。这难道说明上帝要惩罚婚姻幸福的信徒吗?或许,这只是两者在时间序列上的偶合而已。

皮尔逊解释,真正的相关性能够表明变量之间的一种“有机关系”,而伪相关则不能。但什么是“有机关系”呢?这难道不是因果关系的另一种叫法?

皮尔逊遇到的难题,给另外一个人提供了机会。他就是休厄尔.赖特。

休厄尔·赖特、豚鼠和路径图

休厄尔.赖特在美国农业部工作,负责饲养豚鼠。在工作之余,赖特研究豚鼠毛色与遗传基因、环境、其他因素的关系。为了研究各个因素之间的关系,赖特画出了一个关系图:


其中D表示发育因子,H表示遗传因子,E表示环境因子,Chance表示随机因子。基本上,这张路径图显示了所有可以想到的可能影响后代豚鼠毛色的因子。

通过分析和计算,赖特得出结论:在随机繁殖的豚鼠中,42%的毛色变异是由遗传因子引起的,58%是由发育因子引起的

这张路径图,其实就是一个因果关系图,各种因子对后果都有一定权重的影响。有人质疑赖特,在得出结论前就画出了路径图,通过因果假设证明出因果关系,这是否存在循环论证的问题呢?

我想,假设存在因果关系这一点上,这是赖特和高尔顿截然不同的地方。不过,赖特最终能够计算出具体的路径系数,也就是各个因子的权重影响,说明,这超越了循环论证。

豚鼠毛色的案例告诉我们,“相关关系不等于因果关系”这个判定应该让位于“某些相关关系确实意味着因果关系”。这对于我们的因果关系学习是一个巨大的进步,和第一章的结论相呼应:只使用从因果关系之梯第一层级的数据,你是不可能回答属于因果关系之梯第二层级的问题的。这也是,作者不断重复地给大数据、无模型分析方法的爱好者提出的建议:

我们可以尽可能地梳理出数据所能提供的信息,但它永远无法让我们超越因果关系之梯的第一层级,也永远无法回答“各种因的相对重要性”这种简单的问题。

赖特的路径图,是因果关系科学的一个里程碑,但是就这个路径图来说,还存在一些问题。就是说,路径图太过于简单。比如:路径图假设任意各个变量之间的关系都是线性的,这样就可以使用一个简单的路径系数来描述因果关系,如果方程不是线性关系呢?如果各变量之间还有复杂耦合关系呢?确实现实生活中存在很多这样的问题,但是,我认为,解决这个问题的方法即便是需要进一步研究,也绝不能走向摒弃因果关系,只有相关性的老路上去。

从客观性到主观性——贝叶斯

贝叶斯分析的原型是这样的:先验判断+新的证据得到经过修正的判断。这一章只是简单的描述了贝叶斯定律,下一章就是详细叙述贝叶斯定律的时候。

注:文章同时会发布在同名的steemit上。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,607评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,239评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,960评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,750评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,764评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,604评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,347评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,253评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,702评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,893评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,015评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,734评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,352评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,934评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,052评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,216评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,969评论 2 355

推荐阅读更多精彩内容