自然科学中的因果推理

1. 确定性因果推理

想象一个常见的场景。在一群人打篮球时，球飞出打碎了旁边居民家的窗户玻璃。在这个例子中原因很复杂，“因”的集合包括每一个球员、球、篮筐与居民家窗户的位置等。在“事后诸葛亮”式的推演中，不能简单地把最后一个拿球的队员“小明”剔除，就认为“窗户玻璃被打碎”这个结果不会发生了。因为所有队员的行为是根据其他队员的行为来做出反应的。即使在假设推演中把小明剔除了，窗户破碎这个结果也会存在关于他的信息。这其中的原理叫Takens定理。

就像通过小明的运动轨迹能大概推断出其他队员的运动轨迹一样，Takens定理用于从单一变量的时间序列中还原出该变量所在的动力系统的状态，但前提是该变量位于一个确定性的非线性动力系统。1971年，荷兰数学家Floris Takens和物理学家David Ruelle发表文章《On the nature of turbulence》，共同提出了“奇异吸引子”的概念。一个系统有朝某个稳态发展的趋势，这个稳态就叫做吸引子。这种稳态出现是因为随着时间的推移，系统中的其他点会围绕着一些特定点旋转。上文中的小明，就是这个吸引节点，其他人围着他转。根据吸引节点的时间变化，可以还原出整个系统的运动状态。

由于自然科学中的系统都是非线性系统，所以奇异吸引子现象出现的其中一个必要条件是确定性，就是说可以用数学物理公式来直接表示系统在时间和空间纬度上的状态，例如温度、能量、质量等；另一个条件是系统中的变量较少。而在很多自然系统中，随机性无处不在，变量数目也极多。自牛顿机械理论问世以来，使用确定性物理公式进行因果推理延续了几百年。这种因果推理范式被动摇，开始于麦克斯韦-玻尔兹曼定律的提出。根据热力学熵增定律，一切自发过程，总是从概率小的状态向概率大的状态变化。因此，开始时数值天气预报模型只是由纳维-斯托克公式等偏微分方程组成，但是后来也在确定性物理模型中加入了概率统计模型。确定性模型和随机性模型的鸿沟正在逐渐缩小。

无论是用确定性模型还是用随机性模型，在复杂的系统中鉴定因果关系都是很困难的，无论是自然系统还是社会系统。因果推理经常会出现自相矛盾的情况，几个变量之间在某些时刻是正相关耦合的，但在其他时候却显得无关紧要，甚至是负相关。这种非线性现象在自然界中是无处不在的。

即使在最简单的非线性系统中，短暂的相关性也很常见。两个长期正耦合的变量会自发地变成反相关，或者直接脱钩。正是因为如此，将确定性的模型应用到观测数据时可能会在产生问题。虽然相关性既不是建立因果关系的必要条件，也不是充分条件，但它仍然深深地扎根于我们的思维模式中。

2003年，诺贝尔经济学奖得主Clive Granger提出了分析经济变量之间关系的格兰杰因果检验，这是一个利用可预测性 (而非相关性) 来确定时间序列变量之间的因果关系的方法。当X从所有可能的自变量集合U中被删除后，如果Y的可预测性下降，则称变量X为Y的 "格兰杰原因"。这要求该变量具备可分离性，可分离性是纯随机系统和线性系统的特征。如前所述，小明所在的球队就不具备可分离性。同样的道理，大气模型中的WRF模型敏感性实验也是不可取的，不能简单粗暴地剔除一个变量看预测结果如何。Granger自己也意识到这种因果检验方法可能会有问题，特别是在具有弱到中等程度耦合的动力学系统中。这些系统不满足可分离性。

除了不可分离性、弱耦合之外，一个开放系统还受到外部强迫力的驱动，例如气流、降水等。外部驱动力的存在，使不存在相互作用的变量之间也存在着明显的相关性和同步性。如此一来从虚假的相关性中筛选出真正的相互作用就变得很复杂。

在动力学系统中，如果随时间变化的变量X和Y来自同一个动态系统，且它们共享一个共同的吸引子，那么它们之间是有因果关系的。举几个例子。拿着篮球的小明是吸引子M，其他队员围着他转，红方球队某成员X要接球，蓝方球队某成员Y要截胡对抗，X的接球动作是Y的截球动作的原因，虽然中间是间隔着一个拿球的小明 (X→M→Y = X→Y)。另外一个容易理解的例子是天气过程。一个大尺度气流的运动，例如冷锋过境，是由于能量在空间中分布不均导致，冷气团处气压高能量高，暖气团处气压低能量低，气流从高压向低压运动。这里面能量分布接近于平均的趋势是吸引子M ，气流运动是原因X，某地区的气温下降是结果Y。

在原因-吸引子-结果链条 X→M→Y中，我们可以推导出一个结论，每个变量都可以识别另一个变量的状态。例如，被捕食者兔子的数量信息可以从捕食者老鹰数量的时间序列中恢复，反之亦然。但是，当一个变量X是变量Y的随机的环境驱动因素时，不存在吸引子M，Takens定理也就不成立了。此时关于时间序列变量X的状态信息仍然可以从变量Y中恢复，但是不能反过来。例如，空气污染物浓度的时间序列可以用来估计天气，但反之则不行。这与人的直观感受背道而驰，也与主流的大气物理模型WRF-CMAQ、WRF-Chem等相悖。

在原因-吸引子-结果链条中，我们还可以得出一个推论，因果关系是具有可转移性的。例如，如果狐狸捕食兔子，兔子吃草，那么狐狸和草是有因果关系的。亦即X ⇔Y ⇔ Z意味着X ⇔ Z，不管X和Z是否直接相互作用。类似地，对于单向的强迫力，X ⇒ Y和Y ⇒ Z意味着X ⇒ Z。

因果关系具有可转移性，这一点具有非常大的潜在应用价值。因为可以利用非耦合变量来进行系统的信息还原。假设两个变量X和Y不相互作用，但都由一个共同的环境变量Z驱动。注意共同变量Z和吸引子M不一样。共同变量Z只对X和Y有影响，而吸引子M是系统变量，影响全局。假设变量X和Y之间没有信息流，没有相互作用。即便如此，关于外部强迫变量Z的信息仍然应该可以从变量X和Y时间序列中还原。例如，在渔业中，由于有利的环境条件，例如海温和海流，不同的鱼类具有共同的数量高峰月份，即使它们之间没有交集，不在一个地区活动。另外一个例子，仍然列举天气系统。降水对近地面的空气污染物和能见度都有影响。小时降水量是共同变量Z，空气污染物浓度X和能见度Y是受Z影响的变量。理论上从能见度和空气质量AQI中可以还原出降水量。特别指出，只靠一个变量X是无法准确还原共同变量Z的信息的。至少需要两个变量X和Y，这体现了三角关系的稳定性。

共同变量Z与影响变量XY的三角关系稳定性。

2. 不确定性因果推理

因果推理对人工智能的发展方向有重要影响。众所周知，人工智能中的深度学习之所以饱受诟病，是因为神经网络的黑箱性。你并不知道它具体是怎么运行的，神经网络隐藏的层数太多。例如用于实现英语句子翻译的神经网络，其准确度虽然高，但它是一个拥有3.84亿个参数的概率模型 (见参考文献4)。这种纯统计黑盒模型导致因果推理几乎不存在，给出的结果也无法用科学原理来解释。无因果，不成科学。

数据是所有机器学习系统的关键成分。但是，数据，即使是所谓的大数据，在人们从数据中提取出知识和因果推论之前，其本身是无用的。所有的机器学习任务都可以被表述为从观察到的数据中对缺失的或潜伏的数据进行推理、预测。如果一个模型在对观测数据进行训练后，能够对未观测到的数据做出预测或预报，那么这个模型就被认为是搭建良好的。否则，如果模型不能做出预测，就不能被证伪，当然也不能用。

前面提到过确定性模型和随机性模型的鸿沟在缩小，二者优势可以互补。面对大量的数据，建立一个可预测、可解释的因果模型，性价比较高的方法是尽可能多的找到因果规律，然后将剩下无法解释的现象交给概率模型。显然，将一个具有无限多参数的概率模型拟合到有限的训练数据上会导致 "过拟合"，即训练出来的模型可能反映了训练数据的怪异性，而不是可以推广到未知的新数据的规律性。而非参数概率模型，例如贝叶斯推断不容易出现这种过拟合。某种程度上，贝叶斯推断几乎就是不确定性因果推理的代名词。

过拟合现象也发生在人的大脑认知中。只接触那些你已经喜欢的东西是有风险的，可能会卷入一个以自我为中心的漩涡。你卡在了一个小山坡的位置，而你却自认为自己是在最高的顶峰。

信息革命导致数据的收集量越来越大，已经不是纯确定性模型所能驾驭得了的。在对这种大数据进行建模时，不确定性或随机性的作用就体现出来。既然单纯通过物理模型很难完全还原复杂的因果关系，那么就需要辅助以概率模型方法，才能拟补物理模型的缺陷。贝叶斯推断是现今最广为使用的纯数据归纳推理方法。贝叶斯推断在时间序列分析中格外的重要，是一个非参数化的统计概率方法。无论拥有多少数据，贝叶斯非参数模型的学习能力都不会饱和，它们的预测能力应该随着数据量增大不断提高。

贝叶斯推断适合满足同质性假设的小数据，例如高斯分布。尤其适合马尔洛夫过程 (完全随机)，也就是系统中粒子的未来运动状态只取决于当下，与历史状态无关。那么大数据呢？许多所谓的大数据，其实就是就是小数据的集合，所以数据量越大，贝叶斯方法的预测能力越高。例如，在个性化医疗和推荐系统等领域，可能会有大量的数据，但每个病人或客户的数据量还是比较小的。为了给每个人定制预测，就需要为每个人建立一个模型。这便是模型的个性化。

3. 大脑认知科学中的因果推理

夫无财曰“贫”，无路曰“穷”，学道而不能行，谓之“病”。

任何科学原理，如果它对你来说，不能用于认识现实、改造世界，那它就是废纸；学道而不能行谓之病，如果科学原理本身有用，你拿着它什么事都干不了，那你就是废人。废纸和废人都应该被扫进历史的垃圾堆里。

很多时候再多的因果推理和统计分析，也不能让你做出好的决策。尽管在读书、做学术科研时，一再强调因果推理的重要性，但是走向社会后，成为解释性人才，是非常危险的。因为百无一用是书生，你总能找出原理来解释失败的结果。为什么那些象牙塔的书呆子很可笑，原因在于他们只是世界的被动观察者，他们的存在就是在事情发生之后为这件事找理由，但真正推动这个世界运转的人，想的从来就是怎么样去操纵结果。一些大学花了十几年的时间发表了几百篇论文，加在一起还抵不上谷歌公司一篇论文的影响力。因为那是商业资本的切肤之痛的结晶。

若果你的大脑中思维模型过于复杂，会思虑过度，总是担心没有发生的事情。纵使能预测未来，能在意外发生之后减轻心理的痛苦，但是却不能解决问题。复杂的大脑模型，就是过于聪明。这与乔布斯提倡的“Stay hungry. Stay foolish”相悖，应该保持“愚蠢”，随时清零自己的经验模型，日新日进。

《荀子·议兵》中云: “知莫大于弃疑，行莫大于无过，事莫大于无悔。事至无悔而止矣，不可必也”。最大的智慧就是不用复杂的谋略。拿破仑从来没有搞过战略迂回，都是直来直去地猛打，炮兵轰，骑兵冲。在学术上和机器学习中，是一定要给出预测结果的，哪怕结果不理想。但是在现实中，“不可期必”，不能期待结果一定会怎样。因为一期必，容易贪巧求速、拔苗助长、侥幸冒险。止于至善，人工智能学习数据时的那个全局最优点，可能在现实生活中并不存在。

前面提到，一个系统中如果存在吸引子，周围的点都会围绕它，那么随着时间的推移，慢慢地这个系统就会到达这个吸引子创造的稳态。这种魔力，人也可以有。例如马云、例如乔布斯、例如王坚、例如马斯克，他们身上散发出一种“奇异吸引子”般的魔力，这种吸引力能够扭曲现实气场，改变并领航所有人的方向。

威尔·杜兰特在其所著《历史的教训》中说：“ 一种对现有秩序的挑战是否会引起回应，究竟是由什么决定的？答案是，这取决于是否存在有主动性和创造性的个体，他们思路清晰，意图强大，这几乎就是天才的定义；能对新的情况做出有效的反应，这几乎就是智慧的定义。“ 找到一件你认为有价值的事大胆去做，坚持公开的做下去，你还是有很大概率吸引到一批追随者。这个时候，你就变成了一个“奇异吸引子”。在历史上，只有一种方法是有效促成共识的，那就是用坚定的信念影响所有的人；如果有影响不了的，那就把达不成共识的人排除出去。Go break some eggs.

本文主要参考文献为：

Sugihara G, May R, Ye H, et al. Detecting causality in complex ecosystems[J]. science, 2012, 338(6106): 496-500. 被引用次数：990。
Ghahramani Z. Probabilistic machine learning and artificial intelligence[J]. Nature, 2015, 521: 452. 被引用次数：853。
Ruelle D, Takens F. On the nature of turbulence[J]. Communications in Mathematical Physics, 1971, 20(3): 167-192. ‎被引用次数：4045。
Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]. Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2, 2014: 3104–3112. 被引用次数：12162。

最后编辑于：2023.03.30 17:34:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,084评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,623评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,450评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,322评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,370评论 6赞 390
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,274评论 1赞 300
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,126评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,980评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,414评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,599评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,773评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,470评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,080评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,713评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,852评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,865评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,689评论 2赞 354

自然科学中的因果推理

1. 确定性因果推理

2. 不确定性因果推理

3. 大脑认知科学中的因果推理

推荐阅读更多精彩内容