万物互联的时代是一个数据横行的时代。通过天量的数据,科学家可以发现某些变量之间的关联,进而利用数据之间的关联预测未来。然而,数据之间的关联性只是数据之间的表面关系,因为为什么数据之间有关联性,这一问题尚未得到说明。人们发现冰激凌销量与犯罪率上升有显著的正相关性,但是人们也不会轻易地认为两者之间有更为底层和牢固的因果关系。因此,数据之间的因果关系可以说明数据之间的相关性,反之并不亦然。
休谟说因果关系是宇宙的粘合剂。换句话说,因果关系是数据相关性的最终来源。因为数据之间有因果关系,所以数据才表现出特定的模式。在日常生活中,人们使用因果关系的机会大大多于使用相关性,即使在科学家看来,很多时候两个数据之间只有相关性,而不是因果性。什么是因果关系?数据之间的因果关系有什么样的识别特征?休谟是一位彻底的经验主义者,为我们提供了理解因果关系及其识别方式的最初思想。他认为因果关系只是人类思维的产物,因果性只是人类心理倾向。人类倾向于将恒常出现的两个事件用“因果关系”这一语词加以整理而已,因此,与其说因果关系是宇宙的粘合剂,还不如说是人类理解宇宙的工具。休谟之所以如此认为,是因为从经验的角度分析,人类只能感知到两个事件发生的前后相续和空间相邻,而无法直接感知到因果关系。如若这样,数据之间的可感知特征是否足以给予人们以充分的知识,人类探索自然的脚步是否可以在此停留?
统计学是休谟思想的最佳代言,“不问因果,只问相关”是统计学的座右铭,而且超出任何数据可提供范围的回答都被明令禁止。从冰激凌销量和犯罪率的数据看,两者有显著的正相关,至于两者是否存在因果关系,这一问题是被禁止的。或者对统计学而言,相关性足以提供所有知识,至于所存在的混合因子、中介变量诸如此类的难题,统计学家认为这是数据不够完善,而不是数据处理原则问题。事实上真是如此吗?
因果关系研究大咖朱迪亚·珀尔(Judea Pearl)却不这么想。他认为统计学的数据处理方式还停留在观察阶段。从数据中发现规律,是人类和其他动物都有的认知能力,但是人类之所以可以跳出动物世界,创造灿烂的文明,则是拥有了行动能力和想象能力的结果。行动能力和想象能力之所以能够施展出无与伦比的威力,是因为它们操作的是因果关系。行动不是漫无目的地,随机摆弄对象。当旧石器时代的智人制作石器时,他们每一次敲击都是有意图的,因为他们认为如此这般的敲击可以获得他们想要的石器结构,这一过程离不开对因果关系的理解。想象能力更是如此。设想情况与之前不同,最终会出现什么异样结果,也离不开对因果关系的理解。因此,因果关系思维是人类摆脱动物世界的思维引擎。然而,长期以来,系统化的研究因果关系,找到如何从数据中获得数据之间的因果关系的方法,一直停滞不前,甚至在概率论加持的统计学的主导下,一切对因果关系的讨论变得不合时宜。近年来,人工智能异常火热,基于统计的机器学习在应用上的成功也掩盖了因果关系探索的必要性和急迫性。但是,基于统计的机器学习受制于数据的可感知特征,无法像人类一样具有干预和想象能力。珀尔认为人工智能要成为通用人工智能,必须具有因果推理能力,如此一来,人工智能就可以超出数据的局限性,利用稳定的数据之间的因果结构进行推理,从而具备举一反三,跨领域运用的能力。
至于如何将数据之间的相关性和因果性结合起来,如何从数据的相关性推演出数据之间的因果性,以及找到一个恰当的数学方法表征因果关系,这些具体的工作将在《The Book of Why》一书的接续几章讲到。