1. 确定性因果推理
想象一个常见的场景。 在一群人打篮球时,球飞出打碎了旁边居民家的窗户玻璃。在这个例子中原因很复杂,“因”的集合包括每一个球员、球、篮筐与居民家窗户的位置等。在“事后诸葛亮”式的推演中,不能简单地把最后一个拿球的队员“小明”剔除,就认为“窗户玻璃被打碎”这个结果不会发生了。因为所有队员的行为是根据其他队员的行为来做出反应的。即使在假设推演中把小明剔除了,窗户破碎这个结果也会存在关于他的信息。这其中的原理叫Takens定理。
就像通过小明的运动轨迹能大概推断出其他队员的运动轨迹一样,Takens定理用于从单一变量的时间序列中还原出该变量所在的动力系统的状态,但前提是该变量位于一个确定性的非线性动力系统。1971年,荷兰数学家Floris Takens和物理学家David Ruelle发表文章《On the nature of turbulence》,共同提出了“奇异吸引子”的概念。一个系统有朝某个稳态发展的趋势,这个稳态就叫做吸引子。这种稳态出现是因为随着时间的推移,系统中的其他点会围绕着一些特定点旋转。上文中的小明,就是这个吸引节点,其他人围着他转。根据吸引节点的时间变化,可以还原出整个系统的运动状态。
由于自然科学中的系统都是非线性系统,所以奇异吸引子现象出现的其中一个必要条件是确定性,就是说可以用数学物理公式来直接表示系统在时间和空间纬度上的状态,例如温度、能量、质量等;另一个条件是系统中的变量较少。而在很多自然系统中,随机性无处不在,变量数目也极多。自牛顿机械理论问世以来,使用确定性物理公式进行因果推理延续了几百年。这种因果推理范式被动摇,开始于麦克斯韦-玻尔兹曼定律的提出。根据热力学熵增定律,一切自发过程,总是从概率小的状态向概率大的状态变化。因此,开始时数值天气预报模型只是由纳维-斯托克公式等偏微分方程组成,但是后来也在确定性物理模型中加入了概率统计模型。确定性模型和随机性模型的鸿沟正在逐渐缩小。
无论是用确定性模型还是用随机性模型,在复杂的系统中鉴定因果关系都是很困难的,无论是自然系统还是社会系统。因果推理经常会出现自相矛盾的情况,几个变量之间在某些时刻是正相关耦合的,但在其他时候却显得无关紧要,甚至是负相关。这种非线性现象在自然界中是无处不在的。
即使在最简单的非线性系统中,短暂的相关性也很常见。两个长期正耦合的变量会自发地变成反相关,或者直接脱钩。正是因为如此,将确定性的模型应用到观测数据时可能会在产生问题。虽然相关性既不是建立因果关系的必要条件,也不是充分条件,但它仍然深深地扎根于我们的思维模式中。
2003年,诺贝尔经济学奖得主Clive Granger提出了分析经济变量之间关系的格兰杰因果检验,这是一个利用可预测性 (而非相关性) 来确定时间序列变量之间的因果关系的方法。当X从所有可能的自变量集合U中被删除后,如果Y的可预测性下降,则称变量X为Y的 "格兰杰原因"。 这要求该变量具备可分离性,可分离性是纯随机系统和线性系统的特征。如前所述,小明所在的球队就不具备可分离性。同样的道理,大气模型中的WRF模型敏感性实验也是不可取的,不能简单粗暴地剔除一个变量看预测结果如何。Granger自己也意识到这种因果检验方法可能会有问题,特别是在具有弱到中等程度耦合的动力学系统中。这些系统不满足可分离性。
除了不可分离性、弱耦合之外,一个开放系统还受到外部强迫力的驱动,例如气流、降水等。外部驱动力的存在,使不存在相互作用的变量之间也存在着明显的相关性和同步性。如此一来从虚假的相关性中筛选出真正的相互作用就变得很复杂。
在动力学系统中,如果随时间变化的变量X和Y来自同一个动态系统,且它们共享一个共同的吸引子,那么它们之间是有因果关系的。举几个例子。拿着篮球的小明是吸引子M,其他队员围着他转,红方球队某成员X要接球,蓝方球队某成员Y要截胡对抗,X的接球动作是Y的截球动作的原因,虽然中间是间隔着一个拿球的小明 (X→M→Y = X→Y)。另外一个容易理解的例子是天气过程。一个大尺度气流的运动,例如冷锋过境,是由于能量在空间中分布不均导致,冷气团处气压高能量高,暖气团处气压低能量低,气流从高压向低压运动。这里面能量分布接近于平均的趋势是吸引子M ,气流运动是原因X,某地区的气温下降是结果Y。
在原因-吸引子-结果链条 X→M→Y中,我们可以推导出一个结论,每个变量都可以识别另一个变量的状态。例如,被捕食者兔子的数量信息可以从捕食者老鹰数量的时间序列中恢复,反之亦然。但是,当一个变量X是变量Y的随机的环境驱动因素时,不存在吸引子M,Takens定理也就不成立了。此时关于时间序列变量X的状态信息仍然可以从变量Y中恢复,但是不能反过来。例如,空气污染物浓度的时间序列可以用来估计天气,但反之则不行。这与人的直观感受背道而驰,也与主流的大气物理模型WRF-CMAQ、WRF-Chem等相悖。
在原因-吸引子-结果链条中,我们还可以得出一个推论,因果关系是具有可转移性的。例如,如果狐狸捕食兔子,兔子吃草,那么狐狸和草是有因果关系的。亦即X ⇔Y ⇔ Z意味着X ⇔ Z,不管X和Z是否直接相互作用。类似地,对于单向的强迫力,X ⇒ Y和Y ⇒ Z意味着X ⇒ Z。
因果关系具有可转移性,这一点具有非常大的潜在应用价值。因为可以利用非耦合变量来进行系统的信息还原。假设两个变量X和Y不相互作用,但都由一个共同的环境变量Z驱动 。注意共同变量Z和吸引子M不一样。共同变量Z只对X和Y有影响,而吸引子M是系统变量,影响全局。假设变量X和Y之间没有信息流,没有相互作用。即便如此,关于外部强迫变量Z的信息仍然应该可以从变量X和Y时间序列中还原。例如,在渔业中,由于有利的环境条件,例如海温和海流,不同的鱼类具有共同的数量高峰月份,即使它们之间没有交集,不在一个地区活动。另外一个例子,仍然列举天气系统。降水对近地面的空气污染物和能见度都有影响。小时降水量是共同变量Z,空气污染物浓度X和能见度Y是受Z影响的变量。理论上从能见度和空气质量AQI中可以还原出降水量。特别指出,只靠一个变量X是无法准确还原共同变量Z的信息的。至少需要两个变量X和Y,这体现了三角关系的稳定性。
2. 不确定性因果推理
因果推理对人工智能的发展方向有重要影响。众所周知,人工智能中的深度学习之所以饱受诟病,是因为神经网络的黑箱性。你并不知道它具体是怎么运行的,神经网络隐藏的层数太多。例如用于实现英语句子翻译的神经网络,其准确度虽然高,但它是一个拥有3.84亿个参数的概率模型 (见参考文献4)。这种纯统计黑盒模型导致因果推理几乎不存在,给出的结果也无法用科学原理来解释。无因果,不成科学。
数据是所有机器学习系统的关键成分。但是,数据,即使是所谓的大数据,在人们从数据中提取出知识和因果推论之前,其本身是无用的。所有的机器学习任务都可以被表述为从观察到的数据中对缺失的或潜伏的数据进行推理、预测。如果一个模型在对观测数据进行训练后,能够对未观测到的数据做出预测或预报,那么这个模型就被认为是搭建良好的。否则,如果模型不能做出预测,就不能被证伪,当然也不能用。
前面提到过确定性模型和随机性模型的鸿沟在缩小,二者优势可以互补。面对大量的数据,建立一个可预测、可解释的因果模型,性价比较高的方法是尽可能多的找到因果规律,然后将剩下无法解释的现象交给概率模型。显然,将一个具有无限多参数的概率模型拟合到有限的训练数据上会导致 "过拟合",即训练出来的模型可能反映了训练数据的怪异性,而不是可以推广到未知的新数据的规律性。而非参数概率模型,例如贝叶斯推断不容易出现这种过拟合。某种程度上,贝叶斯推断几乎就是不确定性因果推理的代名词。
过拟合现象也发生在人的大脑认知中。只接触那些你已经喜欢的东西是有风险的,可能会卷入一个以自我为中心的漩涡。你卡在了一个小山坡的位置,而你却自认为自己是在最高的顶峰。
信息革命导致数据的收集量越来越大,已经不是纯确定性模型所能驾驭得了的。在对这种大数据进行建模时,不确定性或随机性的作用就体现出来。 既然单纯通过物理模型很难完全还原复杂的因果关系,那么就需要辅助以概率模型方法,才能拟补物理模型的缺陷。贝叶斯推断是现今最广为使用的纯数据归纳推理方法。贝叶斯推断在时间序列分析中格外的重要,是一个非参数化的统计概率方法。无论拥有多少数据,贝叶斯非参数模型的学习能力都不会饱和,它们的预测能力应该随着数据量增大不断提高。
贝叶斯推断适合满足同质性假设的小数据,例如高斯分布。尤其适合马尔洛夫过程 (完全随机),也就是系统中粒子的未来运动状态只取决于当下, 与历史状态无关。那么大数据呢?许多所谓的大数据,其实就是就是小数据的集合,所以数据量越大,贝叶斯方法的预测能力越高。例如,在个性化医疗和推荐系统等领域,可能会有大量的数据,但每个病人或客户的数据量还是比较小的。为了给每个人定制预测,就需要为每个人建立一个模型。这便是模型的个性化。
3. 大脑认知科学中的因果推理
夫无财曰“贫”,无路曰“穷”,学道而不能行,谓之“病”。
任何科学原理,如果它对你来说,不能用于认识现实、改造世界,那它就是废纸;学道而不能行谓之病,如果科学原理本身有用,你拿着它什么事都干不了,那你就是废人。废纸和废人都应该被扫进历史的垃圾堆里。
很多时候再多的因果推理和统计分析,也不能让你做出好的决策。尽管在读书、做学术科研时,一再强调因果推理的重要性,但是走向社会后,成为解释性人才,是非常危险的。因为百无一用是书生,你总能找出原理来解释失败的结果。为什么那些象牙塔的书呆子很可笑,原因在于他们只是世界的被动观察者,他们的存在就是在事情发生之后为这件事找理由,但真正推动这个世界运转的人,想的从来就是怎么样去操纵结果。一些大学花了十几年的时间发表了几百篇论文,加在一起还抵不上谷歌公司一篇论文的影响力。因为那是商业资本的切肤之痛的结晶。
若果你的大脑中思维模型过于复杂,会思虑过度,总是担心没有发生的事情。纵使能预测未来,能在意外发生之后减轻心理的痛苦,但是却不能解决问题。复杂的大脑模型,就是过于聪明。这与乔布斯提倡的“Stay hungry. Stay foolish”相悖,应该保持“愚蠢”,随时清零自己的经验模型,日新日进。
《荀子·议兵》中云: “知莫大于弃疑,行莫大于无过,事莫大于无悔。事至无悔而止矣,不可必也”。最大的智慧就是不用复杂的谋略。拿破仑从来没有搞过战略迂回,都是直来直去地猛打,炮兵轰,骑兵冲。在学术上和机器学习中,是一定要给出预测结果的,哪怕结果不理想。但是在现实中,“不可期必”,不能期待结果一定会怎样。因为一期必,容易贪巧求速、拔苗助长、侥幸冒险。止于至善,人工智能学习数据时的那个全局最优点,可能在现实生活中并不存在。
前面提到,一个系统中如果存在吸引子,周围的点都会围绕它,那么随着时间的推移,慢慢地这个系统就会到达这个吸引子创造的稳态。这种魔力,人也可以有。例如马云、例如乔布斯、例如王坚、例如马斯克,他们身上散发出一种“奇异吸引子”般的魔力,这种吸引力能够扭曲现实气场,改变并领航所有人的方向。
威尔·杜兰特在其所著《历史的教训》中说:“ 一种对现有秩序的挑战是否会引起回应,究竟是由什么决定的?答案是,这取决于是否存在有主动性和创造性的个体,他们思路清晰,意图强大,这几乎就是天才的定义; 能对新的情况做出有效的反应,这几乎就是智慧的定义。“ 找到一件你认为有价值的事大胆去做,坚持公开的做下去,你还是有很大概率吸引到一批追随者。这个时候,你就变成了一个“奇异吸引子”。在历史上,只有一种方法是有效促成共识的,那就是用坚定的信念影响所有的人;如果有影响不了的,那就把达不成共识的人排除出去。Go break some eggs.
本文主要参考文献为:
Sugihara G, May R, Ye H, et al. Detecting causality in complex ecosystems[J]. science, 2012, 338(6106): 496-500. 被引用次数:990。
Ghahramani Z. Probabilistic machine learning and artificial intelligence[J]. Nature, 2015, 521: 452. 被引用次数:853。
Ruelle D, Takens F. On the nature of turbulence[J]. Communications in Mathematical Physics, 1971, 20(3): 167-192. 被引用次数:4045。
Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]. Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2, 2014: 3104–3112. 被引用次数:12162。