《为什么》5:六个判断力层级。6:到底应该怪谁？

《为什么》5:六个判断力层级

第一层判断力是既然这个东西“贵”，那就肯定有效；

第二层判断力是有个熟人用了这个东西有效，所以我认为它有效；

第三层判断力是对人群的研究；

第四层判断力是想到一个因素就控制一个因素；

第五层判断力是随机实验；

第六层判断力是用更简单、更准确的方法决定到底应该控制哪些变量。

你怎么知道一个东西到底是不是真有效呢？

1.老百姓的层次

日常生活中经常面对这个问题。比如现在有一种卖得很贵的保健品，号称用的材料都是货真价实的，里边有各种珍贵的药材，对身体有好处，那你怎么能知道它是不是真有效呢？这一个问题，就能把人按见识长短拉开很多档次。

最底层的判断力是既然这个东西“贵”，那就肯定有效。材料贵、材料是真的就有效吗？有个笑话叫“珍珠翡翠白玉汤”，说这个汤是用珍珠、翡翠和白玉这些最贵的东西熬出来的 —— 也就是白开水，它对身体没有任何作用。其实现代制药业用的都是普通的材料，就好像做软件一样边际成本很低。药物有没有效在于配方是否科学，不在于材料贵不贵。

有人往白酒里加金箔，喝酒就是喝黄金，但你要知道它不能把你的身体变成黄金的。然而这种认知就能在中国刷掉很多人。

“贵”可以让你觉得有效，最多相当于“理论上应该有效” —— 可是真正有没有效，得看实践。

第二层判断力，是有个熟人吃了这个保健品有效，所以我认为它有效。这一条又刷掉了很多人。

一个例子能证明有效吗？可能熟人那几天偶然身体不好，本来不吃也能恢复，吃保健品和恢复完全是巧合。你最起码得知道大多数人吃了这个保健品有没有效 —— 以及，这个保健品有没有害。

第三层判断力是对人群的研究。假设二十年后中国人民的文化水平普遍提高，这个保健品集团为了跟上人民日益增长的智商，委托内蒙古大学出了一个报告，说吃了这个保健品的人群的身体状况，平均而言，比没吃的人群好。那这个报告能说明这个保健品有效吗？

还是不能。保健品卖得挺贵，吃这个保健品的一般都是有点钱的人。这些人的医疗保障、生活环境、饮食结构各方面都比穷人要好，他们的身体状况本来就*应该*更好。你怎么能知道是吃了保健品的人身体好呢，还是身体好的人更容易买保健品吃呢？

这些都是老百姓水平的判断力。那科学家会怎么做呢？

2.混杂偏误

贝叶斯方法适合每次遇到一个新证据的情况，看看科学家使用的大规模统计研究。

说 X 对 Y 有效，就是要建立从 X 到 Y 的一个因果关系：X→Y。

事情的复杂之处在于，往往会有一个其他因素，Z，既影响了 X 也影响了 Y。因果关系图就如同下面这样 ——

比如说，X 代表每天锻炼身体，Y 是身体健康，Z 是年龄。我们希望证明锻炼身体能促进身体健康，但是你得考虑年龄因素。年轻人更爱锻炼身体，年轻人的身体也更健康。那当你观察到爱锻炼身体的人更健康这个现象，你就不知道到底是 X 导致了 Y，还是因为 Z 同时影响了 X 和 Y。

统计学上管 Z 叫“干扰因素（confounding factor）”，也叫潜在变数。不考虑 Z 就贸然说锻炼对身体有好处，那你就犯了“混杂偏误”，也叫“混淆偏移”，英文是 confounding bias。Z，混杂了X→Y的因果关系。

但是你很容易就能去除 Z 的混杂。比如如果年龄是个干扰因素，那我们可以只考察同一个年龄段的人，看看其中锻炼和不锻炼的人的健康区别。如果同为50岁，锻炼的人比不锻炼的人身体好，那就说明在年龄之外，锻炼真可能有好处。

在统计学上这叫“控制变量” —— 控制了年龄因素，“controlling for Z”，再看 X 和 Y 之间有没有关系。

而年龄之外还可能有别的因素。比如时间也是个因素，工作清闲的人有更多时间锻炼，同时工作清闲的人身体状况也可能更好，所以你还得控制“工作清闲”这个变量。

说保健品的时候提到的经济条件可能影响健康，而且经济条件好的人的确更爱锻炼，所以必须控制经济条件这个变量。

判断力的第四层，就是如此这般、你想到一个因素就控制一个因素……这已经是科学方法。大量学术研究都是这么做的，控制了各种可能因素之后，给你一个结论：X 跟 Y之间有这么一个推测性的关系。

这个方法的问题在于你永远都无法穷尽所有可能的干扰因素，也许就是有一些变量是你没想到、或者来不及控制的！所以你还是不敢说 X 跟 Y有因果关系！

3.随机实验

第五层判断力是随机实验。随机实验的创始人是英国统计学家罗纳德·费舍尔（Ronald Fisher）。

大约是1923年，费舍尔在研究肥料对农作物生长的影响。他可没像某些保健品那样，说这个肥料货真价实用的都是好材料就一定是好肥料。

费舍尔老老实实做实验。弄两块实验田，一块用1号肥料一块用2号肥料，看看哪块田的庄稼长得好，这行不行呢？

问题在于世界上根本没有完全相同的两块田。有些土地的灌溉比较好，有的地方虫害少，不同土地的酸碱度也不一样，所有这些都是干扰因素，你得想办法控制。

费舍尔意识到，不管怎么控制，他都无法排除所有的潜在干扰因素。

最后费舍尔想了一个办法。他说我干脆来个*随机*实验。他找了很多块土地，把土地随机地分成两组，一组用1号肥料，另外一组用2号肥料。

大规模随机分组的好处就在于，因为没有使用任何主观分类标准，那就不管你有什么干扰因素，这个干扰因素在两个组里的强度应该是大致相同的。只要实验的样本量足够大，随机分成的两组之间就不会有本质的差异。

这是一个天才的设想，能够排除一切干扰因素！不但如此，费舍尔还能用统计方法估算随机实验得出结论的不确定性到底有多大。比如说你可以用 “P值”代表不确定性，我们专栏前面有一篇《P<0.05：科学家的隐藏动机》专门讲过。

随机实验现在是临床医学的黄金标准。凡是有新药出来，美国 FDA 都会要求做大规模的随机实验。你不拉出来溜溜，又怎么能科学判断到底是骡子是马呢？

随机实验是判断力的第五层，可以说现在你找不到更准确的判断方法 —— 但是它仍然不是最先进的方法。

关键在于，有些事儿不能做实验。比如你想知道吸烟是否真的导致了癌症，你总不能把人分成两组，逼着其中一组人每天吸烟吧？

如果不能做实验，你就还得做些事后的统计，比如看看烟民得肺癌的比例是不是比一般人高 —— 然后你就还得各种控制变量。

4.到底应该控制谁？

第六层判断力，也是过去三十年“因果革命”的一个杰出贡献，就是用更简单、更准确的方法决定到底应该控制哪些变量。

以前、包括现在还有很多研究者写论文，都不知道到底应该控制哪些变量，索性就把所有相关的因素都给控制一遍，连有些不该控制的也给控制了，反而导致结论出错。

因果革命的一个重大突破是在数学上发明了 do-算符。没有这个算符，统计学家永远都说不清到底什么样的因素是干扰因素 —— 干扰因素根本就不是单纯用统计数据能定义的概念。有了这个算符，我们就可以说，所谓“存在干扰因素”，就是 ——

P(Y|X) ≠ P(Y | do(X))。

具体的技术细节对非专业人士意义不大。只要知道根据这个定义，科学家得出了两条判断规则。给定任何一个因果关系图，我们都能使用这两条规则确定，到底哪些变量应该被控制。

第一条规则是“后门”路径的信息传递必须被隔断。所谓后门路径，就是从 X 到 Y 的一条连通路径，其中起始的箭头指向 X。后门路径中可能包含干扰因素，你需要控制其中一个变量，阻断信息传递。

第二条规则是如果后门路径中有“A → B ← C”这样的“碰撞”结构，那就不要控制了，因为其中的 B 已经阻断了 A 和 C 的信息交流，控制反而会带来干扰。

举几个因果关系图的例子 —— 你唯一需要从中体会的就是这个做法有多简单！

（1）

图中没有后门路径，不需要控制任何变量。

（2）

X←A→B←D→E→Y 是一条后门路径。很多研究者会控制其中的变量，但那是错的！注意 B 处是一个碰撞结构，它已经阻挡了信息，这张图根本不需要控制变量。

（3）

X←B→Y是个后门路径，我们需要控制变量 B。

你看这个方法是不是就好像游戏一样。复杂的逻辑结构被变成了简单的数学游戏。这是因果革命的伟大贡献！

珀尔说，如果你的因果关系图已经包含了所有重要的因素，而你的控制变量又做得足够好，那么只要 X 和 Y 之间还有协同的变化，你就有充分的权利说，你找到了一个临时性的 X → Y 因果关系。这样的结论不能说比随机实验低一等，要知道随机实验也有自己的不确定性。

由此得到

在真实世界里获得一点知识是很难的。有谁能想到，一句“这东西真有效吗？”居然引出了一个规则怪异的数学游戏！但这也正是科学家跟老百姓的区别。

老百姓的判断方法是一看够不够贵，二听熟人的证词，最多最多本着“孤证不举”的精神去了解一下人群的总体效果。

而科学家的方法则是控制变量和做随机实验。以前费舍尔刚提出随机实验的时候人们还不太理解，说怎么能把答案交给不确定性呢？这就是高观点和低观点的差距。

因为因果革命，判断力达到了第六层。如果你能见识到这一层，你的判断力段位就比大多数科学家还厉害。

人说当今世界贫富差距大，人跟人的见识差距更大。

《为什么》6:到底应该怪谁？

为什么要把常识逻辑化？

1.逻辑化，是用理性取代感性。

2.逻辑化才能把道理讲清楚。讲清楚了，在法庭上辩论才有力量。

3.逻辑化才能标准化。标准化了，才能普遍推广，才容易被人广泛接受。

4.逻辑化才能机械化。机械化了才能教给 AI。

1.非典型杀人案件

请你考虑这么一个剧情 ——

老王和老李素来有仇。有一天，老王决定杀死老李。他带了一把枪埋伏在老李家楼下。老李从楼里出来，老王走上前去，直接开枪！可是老王这一枪没打中，老李掉头就跑，老王在后面追赶。老李跑到一个地方，正好头顶上有人在阳台上搬运钢琴，非常偶然地一失手，钢琴掉下楼来。

钢琴正好砸在老李身上，把老李给砸死了。

老王有明确的杀人意愿，但是他的子弹并没有打中老李。可老王要是不开枪，老李就不会到处乱跑，也就不会被钢琴砸死。

那请问，老王应该按杀人罪论处吗？

珀尔这本书的核心思想框架，就是通过因果关系，来回答我们在第一讲提出的三种问题：观测、干预、想象。特别是后面这两种问题，只有你承认有因果关系，你才能回答得出来。

我们已经讲了因果关系图的意义，讲了为什么要控制变量，讲了在因果关系图中传递信念的贝叶斯方法。有了因果关系图以后，回答第二和第三类问题的具体操作的一些技术细节，对非专业人士意义不大，我们就不讲了。我们还是关注书中的一些思想性的东西。

像老王杀老李这个问题，其实是一个“反事实”问题。我们认为要是不是老王开枪，老李不会死：这就是反事实分析。老王肯定有责任，可是另一方面，要是钢琴不掉下来，老李也不会被钢琴砸死，那钢琴的主人有没有责任？这个责任应该怎么论呢？

像这样的事儿每个人都有一些感性的“体会” —— 似乎老王不应该按杀人罪论处 —— 问题在于怎么上升到理性定论。理性的办法，是用反事实分析来计算概率。

2.But-for 判据

事实上，反事实分析，可以被视为是因果关系的一个定义。我们还是得从苏格兰哲学家大卫·休谟说起。

按中国的纪年，休谟出生于康熙五十年（1711），卒于乾隆四十一年（1776）。我不知在此期间大清朝生产出来了什么文化财富，也不论西方的科技进步，单论人家一个哲学家休谟的思想，是一直照耀到现代社会。

乾隆四年（1739），休谟提出一个关于因果关系的定义。他说所谓的因果关系只不过就是时间上先后发生的两件事，我们*在感觉中*觉得它们之间有联系而已。用今天的语言来说，休谟认为因果关系是人脑的一种错觉，因果其实就是相关性。

但是到了乾隆十三年（1748），休谟改主意了。休谟说所谓因果就是如果不是第一件事发生了，第二件事就不会发生。

这两个定义对应到后世的人对因果的两种态度，形成了两个派别，这两个派别都把休谟奉为祖师爷。

按理说第二个定义明显比第一个定义更有力。每天天亮*之前*，总会有公鸡打鸣，那根据第一个定义，难道说公鸡打鸣导致了天亮吗？第二个定义就能避免这种尴尬：就算天下的公鸡都不打鸣，天还是会亮，所以公鸡打鸣不是天亮的缘故。

可是第一个定义纯粹是用事实说话，更有科学味道，所以一直到上世纪七十年代都是学界的主流。而现在因果革命的一大成果，就是让第二个定义成为主流。

第二个定义的本质就是反事实分析。要不是 A 发生，B 就不会发生。这个“要不是”，对应的英文是 “but for” —— 这个 but-for 原则，恰恰是现在法律上判定 A 要不要为 B 负责的重要依据。

比如说，嫌疑人开枪，受害者头部中枪立即死亡，那么开枪这个行为就是一个 but-for。要不是你开枪，他就不会死，所以这件事你得负责。

这个道理说着简单，实际并不简单。

3.必要概率和充分概率

珀尔很喜欢用反事实分析较真儿。这个 but-for 的责任可以是间接的。珀尔说，考虑下面这个情况，请问应该怎么判 ——

小王在一家歌舞厅工作。小王违反安全条例，用家具挡住了歌舞厅的一个安全出口的门。结果歌舞厅发生大火，一个人因为安全出口被挡住了而跑不出去，被烧死了。

小王是没有纵火，但是小王有重大责任。那怎么量化小王的责任呢？珀尔说你得计算一个反事实的概率。

假设 X=1 表示门被阻挡，X=0 表示门没有被阻挡；Y=1表示人被烧死，Y=0 表示人没有被烧死。那么珀尔说，你要计算

P(Y(X=0)=0 | X=1, Y=1)

这个表达式的意思是在已知 X=1, Y=1 的情况下，求如果 X=0的话，Y=0的概率。翻译成人话，就是“现在我们知道门被挡住的情况下死了人，请问如果门没有被挡住，人不死的概率”。

再说白了，就是要不是小王挡了门，还会死人吗？这当然就是一个 but-for。但是前面那句“已知……”很重要，它告诉了我们这个问题的严重性。

珀尔把这个概率称之为“必要概率”。小王挡门，是烧死人的必要条件。这个必要概率越大，小王的责任就越大。珀尔估计，如果按照 but-for 标准，美国刑事犯罪定罪的必要概率应该在99%以上。

但是珀尔说，只考虑必要概率是不够的。

比如说，有人在房间里划火柴把房子给烧了。显然划火柴是个 but-for，这个动作的必要概率很高，应该处罚这个人。可是另一方面，房间里要是没有氧气的话，划火柴也不足以点着房子啊？所以氧气也是一个 but-for，氧气的必要概率也很高。你怎么区分划火柴的人和氧气的责任呢？

为此，珀尔说我们还要考虑“充分概率”。所谓充分概率就是做这个动作是否足以导致这样的结果。划火柴的充分概率很高，但是氧气的充分概率很低。毕竟每个房子里都有氧气，而氧气自己并没有导致别的房子着火。

回到开头老王杀老李的案子中。设定 X=1 表示老王开枪，X=0 表示不开枪；Y=1表示老李被钢琴砸死，Y=0表示老李没被钢琴砸死。那么充分概率的严格定义就是

P(Y(X=1)=1 | X=0,Y=0)

意思是已知如果 X=0 则 Y=0，求如果 X=1的话，Y=1的概率。翻译成人话，就是“我们知道老王要是不开枪的话老李不会被钢琴砸死，那么请问老王开枪的情况下，老李有多大可能性被钢琴砸死？”

没人能想到有个钢琴会掉下来，所以这个充分概率很低。据此认为老王只应该按“试图杀人”、而不应该按照杀人罪论处。换一个场景，如果是老王在高楼顶上追杀老李，导致老李坠楼身亡，那老王的充分概率就会很高。

在划火柴和氧气的案子中，划火柴的必要概率和充分概率都很高，氧气的必要概率高、充分概率低 —— 所以划火柴这个动作要承担责任，而氧气不应该承担责任。

而在小王用家具挡了安全出口的门这个案子中，既然有个安全出口，就说明这里防火很重要，火灾并不是钢琴从天而降那种小概率事件。小王这个做法的必要概率和充分概率都不低，小王要承担很大责任。

***

最简化的说，必要概率就是你不开枪他就不会死，充分概率就是你要是开枪他就一定会死。而我们这番推导的结果是，只有在充分概率和必要概率都高的情况下，当事人才负有不可推卸的责任。

从休谟提出第二个因果关系定义，到法庭按照 but-for 原则和必要概率判刑，到珀尔现在把这个逻辑推演到必须同时考虑充分和必要两个概率，这是一条清晰但是很漫长的路。

那你可能会有一个问题。为什么要费力搞这一套？早在休谟之前，每个人也都以为自己知道“因果”到底是什么意思。就算没有休谟，难道法庭遇到案子还能不知道怎么判吗？

事实上现在我们推演出来的结果完全符合人的直觉。那我们为什么要把这些常识给逻辑化呢？

逻辑化，是用理性取代感性。

逻辑化才能把道理讲清楚。讲清楚了，在法庭上辩论才有力量。

逻辑化才能标准化。标准化了，才能普遍推广，才容易被人广泛接受。

逻辑化才能机械化。这正是珀尔本人的野心：机械化了才能教给 AI。

当然逻辑化也是有危险的。可能过段时间会有人说你这个逻辑有漏洞！你这是把道德和法律给变成了教条！——可以，那到时候再改。

如果我们不走逻辑化的路线，一直凭模模糊糊的感觉行事，当然日子也能过下去，但是 —— 注意这也是一个反事实分析 —— 我们就摆脱不了蒙昧状态。

《为什么》5:六个判断力层级。6:到底应该怪谁？

推荐阅读更多精彩内容