这算不上一篇总结的文章,作者在这章从时间轴的角度讲述了一百多年来统计学派的诞生过程,无比遗憾地叹息统计学派建立过程是怎样抛弃了因果推断,而因果推断特别是因果图是怎么在统计学之外的生物学,经济学中诞生并且被应用,为什么因果推断在被提出之后会沉寂数十余年,以及二十世纪后期,贝叶斯网络的崛起。
作者写本章时站得太高,我实在没有能力也不打算把作者写作的要点归结出来(悄悄地说,其实是本章复杂的人物关系和零碎的故事已经把我成功绕晕),本次日记中,我主要希望记录两个要点:
-
为什么统计学派没有接纳因果推断?
-
因果推断既然能解决一些统计学不能解决的问题,为什么在提出已来数十年间发展不起来?
为什么因果推断没有被统计学派接纳?
这得提起统计学的建立者:Karl Pearson,他观点里的事件间的因果联系,对应的是描述事件关联的回归线里的正相关或者负相关,(则一个事件完全确定另外一个事件的出现或不出现),而这种完全确定的描述在一个充斥着不确定的世界里是不需要考虑的。事件的关联程度,完全可以用数据描述去表达。他的观点和书中作者对观点是明显不同的,正如前两篇总结所述,除却现实数据,利用反事实世界的假设数据实现干预也意义重大。单纯利用现实世界的数据,是实现不了从消极观察到主动干预的跃进的。
In Pearson’s eyes, Galton had enlarged the vocabulary of science. Causation was reduced to nothing more than a special case of correlation (namely, the case where the correlation coefficient is 1 or –1 and the relationship between x and y is deterministic
“the ultimate scientific statement of description of the relation between two things can always be thrown back upon… a contingency table.” In other words, data is all there is to science.
另外重要的一方面,因果推断强调了人的主观性的重要作用,正如前面的笔记所述,因果图的建立过程是依赖于人的先验知识的,而统计学强调的是对世界的客观描述,两者在这方面不可调和。这里涉及一个问题超出了我的认知水平:客观性是否是科学的必要条件?如果求解一个问题应用到主观的假设(比如先验概率),能说这个求解方法是不科学的吗?
The struggle for objectivity—the idea of reasoning exclusively from data and experiment—has been part of the way that science has defined itself ever since Galileo.
为什么因果推断在过去没有发展起来?
作者在文中是列举了一些原因的:
-
统计学具有更好的数学逻辑体系
统计学具有更完备的数学体系,统计学家倾向于将问题用更规范的形式去解决掉(俗称套公式?),而因果推断构建因果图时由于依赖人的先验假设,解决每一个新的问题都需要科学地思考如何建立合理的因果模型,而没有提供便捷的数学工具,这让科学家苦恼不已。
-
因果推断与统计学的要领相悖