《智能简史》5：模型思考者。 6：系统2思维

《智能简史》5：模型思考者

大脑演化史上的第三次突破：哺乳动物长出了新皮层，获得了想象力。新皮层给哺乳动物带来的几个新能力，这一切能力的背后有个统一的原理，那就是用模型思考。

第一个能力叫「替代性试错」：先在头脑中的模型里想象一下每个方案会得到什么结果，再采取行动 —— 这也就是做计划的能力。

第二个新能力是「反事实学习」：如果我当初*没做*这个选择，我会得到什么。

第三个新能力是「情节记忆」：情节记忆本质上是生成出来的。它需要调用想象力。

大脑演化史上的第三次突破，也就是哺乳动物长出了新皮层，获得了想象力。这是大脑结构上一个微小的改变，你从远处旁观，似乎动物的行为也没有什么不同，哺乳动物还是打不过恐龙。但是在细微之处，新皮层却是带来了极为惊人的新能力。真是为大自然的造化，那个神机妙算，而击节赞叹。

新皮层给哺乳动物带来的几个新能力。这一切能力的背后有个统一的原理，那就是用模型思考。

新皮层的功能千变万化，但是归根结底就是两件事儿。第一是根据输入的信息生成一个可理解的模型，第二是用这个模型生成对世界的预测。

先看个直观的例子。下面有一张图，只有黑白两色，你能不能看出来图中是个什么东西？

只有输入信息而没有形成模型。那么面对这张图我们的大脑就表示不理解，也无法处理，也记不住，也不知道图中接下来会发生什么。

而一旦形成模型，感觉就完全不一样了。可以告诉你图中画的是一只青蛙。如果你还没看出来，可以去文稿末尾找答案。你会恍然大悟。那么下一次再看到这个黑白图，你立即就能注意到那只青蛙，你对它的眼光从此就不同了。你可以对这张图说各种话……这就是有模型的好处。

而模型的作用绝不仅仅是识别，更是模拟。那些没有新皮层的脊椎动物，比如鱼类，只要图像清晰，也会识别一个物体。你把一个捕食者换个角度给它看，它还是能一眼看出来，这很了不起。但是鱼不能在大脑里*模拟*这个物体，它无法想象比如说自己出现在这个物体下方是个什么情形，它无法设想自己躲在捕食者视野的盲区那样的战术。

而我们可以。我们看到一把椅子，不但能识别出来这是椅子，而且还可以在头脑里对这个椅子进行旋转，改变它的颜色和材质，调整它的高度和宽度，想象六把这样的椅子摆在自家客厅的情形……我们可以对椅子未来可能发生的各种事件进行预测，然后做出选择。

有模型和没有模型，是非常不一样的智能。

没有模型的脊椎动物，最高级的技能也只是强化学习得来，做什么都是冲动之下的选择；有模型的哺乳动物，却可以谋定而后动。

看看哺乳动物的几项新能力。

✵

第一个能力叫「替代性试错（vicarious trial and error）」，先在头脑中的模型里想象一下每个方案会得到什么结果，再采取行动 —— 这也就是做计划的能力。

十九世纪末哈佛大学的桑代克研究动物学习。重点是小鸡和小鱼这些非哺乳动物，主打一个强化学习。到20世纪30年代，加州大学伯克利分校的心理学家爱德华·托尔曼（Edward Tolman）继续了桑代克的研究，这一次主攻老鼠，这可是长着新皮层的哺乳动物。

托尔曼有一个很新奇的发现：老鼠在迷宫的岔路口有时会停下来，左右摆头，来回张望几秒钟，然后再选择一个方向。

这可不像强化学习。强化学习的试错都是横冲直撞做了再说，都是一刻不停地到处找出口，怎么还犹豫上了呢？

托尔曼猜测，老鼠是在想象眼前的每个路径意味着什么。这明显是比行动试错更高级的能力，他称之为「替代性试错」。

进一步的研究表明，老鼠只在面临两难的选择时才会这样犹豫。比如你可以在迷宫中设置一些门，门后放着食物，每个门都会播放声音，训练老鼠根据声音提示判断这个门还有多长时间会打开。如果提示音显示几秒钟后开门，老鼠就会在这等着；如果提示音表示还要过半分钟才会开门，老鼠就直接去下一个门。只有当提示音显示中等程度的延迟的情况下，老鼠走也不是留也不是，才会表现出犹豫。

借用修仙小说的语言来说，老鼠开灵智了。

托尔曼这个猜测直到2000年代才找到证据。当时有了功能性核磁共振成像技术，神经科学家观察发现，当老鼠在岔路口张望的时候，它大脑里的海马体编码的不是此刻所处的位置，而是未来可能的路径。老鼠的确在规划未来的行动。

老鼠能根据自己头脑中的地图规划路线，而鱼类和爬行动物只能依靠多巴胺的指引。

还有个实验更惊人。一个迷宫里有两个地方放着食物，一处放的老鼠喜欢的正常食物，另一处放的是特别咸的食物，老鼠很不喜欢。老鼠经过几次训练，每次走迷宫都去有正常食物的地方，这没问题。但是，如果研究者让老鼠处在一个严重缺盐的状态，再放入迷宫，它就会直奔那个特别咸的食物。

你仔细想想就知道这有多了不起。前面所有的强化学习都在训练老鼠去找正常的食物，那已经是它的本能。可是一旦身体需要盐，老鼠立即就克服了以往的习惯，采取了没有经过强化的行动！

模型思考能克制自动化本能。

✵

模型思维带来的第二个新能力是「反事实学习」，也就是如果我当初*没做*这个选择，我会得到什么。

比如说有两条鱼，本来在一起，去了两个不同方向捕猎。第一条鱼只捕获了一个猎物，回来一看另一条鱼捕获了四个猎物。那你说第一条鱼会不会因为看到同伴的成绩这么好，而后悔自己当初的选择，于是下次去另一条鱼选择的那个方向呢？不会的。强化学习只看自身的回报。

可是老鼠会后悔。在迷宫实验中，如果老鼠错过了一个能立即吃到香蕉的地方，它会回头看那个地方，同时核磁共振显示它的头脑里正在想象吃香蕉：它想象了一个不同的世界，一个反事实的世界 —— 在那个世界里它吃到了香蕉。

如果环境有一定的稳定性，后悔真的很有用。后悔能让你学到教训，下次改进。

反事实学习还能让我们找到因果关系。

从纯逻辑的角度来说，因果关系不是一个科学概念，你做多少实验也不能证明是X导致了Y。朱迪亚·珀尔的《为什么：因果关系的新科学》一书的时候专门说过这个问题：因果关系没有科学定义，但是你可以给一个哲学定义，其中一种选择就是反事实的定义：

如果当初X没发生，Y就不会发生，那么我们就可以说是X导致了Y。如果不是闪电，森林就不会着火，所以是闪电导致了森林着火。

你得会想象那个「如果」，才能掌握这个因果。而掌握因果对我们的生存很有帮助。没有想象力就没有因果知识。

✵

模型思维带给哺乳动物的第三个新能力是「情节记忆（episodic memory）」。

你注意到没有，有些得了失忆症的人不记得以前发生过的事儿，连亲人都不认识，可是却记得怎么说话、怎么打字。这是为什么呢？

这是因为记忆有两种。一种是「程序记忆」，也就是说话、打字、体育活动那些，是一项技能，是长在头脑中的自动化程序。另一种是「情节记忆」，也就是对具体事件的记忆。

关键在于，情节记忆本质上是生成出来的。它需要调用想象力。

我们回忆过去的事和想象未来的事，使用的神经网络非常相似，其实都是在生成模型，进行预测。

想想是不是如此。你还记得新冠疫情期间自己都做了什么吗？那些细节感觉历历在目，但是就好像看那张黑白青蛙图一样，你做了大量的脑补。而脑补很容易出错。人的记忆很不可靠。

事实上，如果有人反复向你灌输一个什么事儿，你会相信那个事儿真的曾经在你身上发生过。我们其实分不太清哪些是想象，哪些是真的。回忆过去其实是一种生成性的重放，是新皮层的功夫。

但是存储记忆不能只靠新皮层，因为你必须实时快速编码才行，这是海马体的本领。海马体本来是用来编码地理位置信息的，它能给大脑一张地图，那它怎么又跟情节记忆有关了呢？原来演化喜欢重复利用同一个东西。海马体能对地理信息编码，本质上是一种形成模式的能力，这个能力正好可以用来给情节记忆编码。

一个事件，本质上也就是新皮层不同区域想象的各种事情的综合体，是一种模式。海马体和新皮层配合，正好把事件映射到新皮层的区域中。你每次调用这个记忆的时候，是先找海马体的编码，然后再找新皮层中的想象。调用多次之后，新皮层自己就学会了，也就不需要通过海马体了，这就形成了长期记忆。

这就导致一个有意思的现象。一个人的海马体被切除了，他还能调用以前旧的记忆，但是再也无法形成新的记忆……

总而言之，记忆需要想象力。

✵

再说说老鼠在迷宫岔路口的那个犹豫。先想象每条路走下去会发生什么，然后再做选择，对AI来说，这叫「基于模型的强化学习」。

萨顿那个「时序差分学习」，也就是一种强化学习方法，在很多小游戏上取得了成功。后来AlphaZero下围棋本质上也是这个方法，但是其中还有个关键的细节。

强化学习靠的是多巴胺，是你感觉哪一步是好棋就走哪一步。但如果完全跟着感觉走，好像也不行……毕竟感觉没有那么准，对吧？可是如果不跟感觉走，那就得把所有可能性都计算一遍，那是爆炸式的算力，谁也算不起。

AlphaZero的办法是对感觉进行搜索。

本质还是强化学习，需要随时问感觉，但是不只问一个感觉。棋下到这个局面，系统会问，下一步最好的走法是什么？回答是A走法。但系统不会立即采用A走法，而是继续问，你感觉第二好的走法是什么？回答是B走法。以此类推，多问几个感觉。

然后系统会对每个感觉进行模拟。假设模拟发现用A走法，未来40盘棋里边能赢35盘；用B走法，未来40盘棋能赢39盘。那么我们可以判定B方法更好 —— 尽管它不是第一个感觉。

使用直觉节省算力，但不只用直觉，你需要多考察几个直觉。这正是老鼠在岔路口的犹豫！

纯粹的强化学习是只用直觉。有犹豫的，就是基于模型的强化学习。

现在几乎所有自动驾驶AI都是纯粹的强化学习，根据直觉直接行动，没有犹豫。但是应该有犹豫才好。

我们在生活中不也是这样吗？每天上班的路线早就走熟了，想都不用想就能走到，就如同“爬行脑”。只有做重大决策的时候，面临两难选择拿不定主意，你会把每个选项仔细想一遍。

这个能力听起来是如此简单，却是如此的不平凡。那可不是一般的“想一想”，那是在新皮层生成的模型中进行模拟推演！

《智能简史》6：系统2思维

1.系统1、快思考，是强化学习带来的本能反应，由基底神经节自动选择；系统2、慢思考，是前额叶皮层感觉到了冲突，先暂停自动反应，发起模拟再做选择，也就是基于模型的强化学习。

2.做陌生的事情，我们总要小心翼翼地想想怎么做，就必须调用系统2；一旦熟练了，新皮层就可以放手，全交给基底神经节。

3.我们所有的意图、目标、人生的意义，都是前额叶皮层想象出来的。而正是这些想象出来的东西能强硬地指导我们的行动。

丹尼尔·卡尼曼的名著，《思考，快与慢》中的一个关键思想：我们的思考可以分为两类，一个是「系统1」，是直觉的、快速的思考；一个是「系统2」，是理性的、慢速的思考。系统1容易让我们犯错误，但系统2比较累。卡尼曼书中有个特别有意思的小细节。

当一个人在进行系统2思考的时候，他的瞳孔会放大。

比如你让一个学生做数学题，题目很难。如果他只是凭着本能做，不用力思考，瞳孔并不会扩张。只要他真的努力琢磨这个题，他的瞳孔就会立即扩大大约50% —— 同时心跳每分钟增加7次，但最明显的是瞳孔。如果他思考一段时间感觉这题实在做不出来，决定放弃了，瞳孔又会缩小到原样。

这个现象是如此之灵敏，以至于研究者可以精确判断这个学生在什么时候放弃思考。研究者会问他：你放弃了吗？学生很惊讶，说你怎么知道？研究者说：因为我有一个通往你心灵的窗口。

卡尼曼没有太多解释为何如此。事实上就连大脑在解剖学上哪些部分是系统1、哪些是系统2，卡尼曼也没有细说。这可能是因为卡尼曼是个心理学家而非脑神经科学家，也可能是因为那时候我们还没有很明确的理论。

现在有了。

时隔多年之后，麦克斯·班尼特的《智能简史》这本书，也讲到了瞳孔扩大的现象。

新皮层就如同AI神经网络，有时候处于接收信息的状态，有时候处于生成 —— 也就是想象 —— 状态，而这两种状态不能同时进行。这里有一个关键特点：当一个人处在想象状态，正在头脑里模拟一个世界的时候，他的瞳孔是扩大的。

因为那时的大脑专注于内部想象，不再处理视觉数据输入，他变成了一个假盲人。

把两本书联系在一起是读书人的一大乐趣。既然都涉及到瞳孔放大，那我们是不是可以说，新皮层的想象状态，就是卡尼曼所说的系统2思考呢？

没错，正是如此！把「哺乳动物的想象力」、「卡尼曼的系统2思维」和AI的「基于模型的强化学习」这三个东西统一起来。

你了解和思考了多年的几件事儿，原来是一回事儿，这难道不是很神奇吗？

✵

哺乳动物的一个新能力是面临两难选择时，能犹豫一下，把不同的局面模拟一番，再做出选择。现在的问题是，大脑是怎么决定要暂停自动化，要犹豫一下的呢？是谁下的命令？

先看大脑的解剖图。

所有哺乳动物的大脑新皮层都可以分成前后两部分。后半部分叫「感觉新皮层（sensory neocortex）」，用来对接外部的触觉、视觉、听觉、嗅觉等等，既处理这些信号也模拟这些信号，负责想象。前半部分叫做「额叶新皮层（frontal neocortex）」，或者对人来说可以简单地就叫「额叶皮层（frontal cortex）」，就是它，负责决定*要不要*停下来进行想象。

更准确地说，是额叶皮层中的「无颗粒状前额叶皮层（aPFC）」这个区域负责决定要不要进行想象。

额叶皮层可以分成三部分：运动皮层（motor cortex），颗粒状前额叶皮层（gPFC）和无颗粒状前额叶皮层（aPFC）。

单说这个无颗粒状前额叶皮层（aPFC），这是我们人脑和最早的哺乳动物共有的区域，所有的做决定、实施注意力的脑区，都是说的这个区域。以下简称它为“前额叶皮层”。

前额叶皮层为啥能决定要不要开启系统2思维，也就是暂停直觉行动，做一番模拟计算呢？其实它的工作原理跟感觉皮层是一样的！

正如感觉皮层接收感觉信号，前额叶皮层接收的信号则是来自大脑内部的海马体、下丘脑和杏仁核。特别是，它一直在关注基底神经节。

强化学习的结果体现在基底神经节上。可以认为基底神经节负责直觉运算，负责做出近乎本能的快速反应 —— 简单说，基底神经节负责系统1思考。

前额叶皮层一直在观察基底神经节，它像视觉皮层对视觉信号建立模型那样，对基底神经节建立了一个模型！然后它要根据这个模型做出预测。

它预测的，是动物自己的行动意图。

比如说，一只老鼠的前额叶皮层看到基底神经节指挥身体前往有水的方向，它就会想，“我之所以往这边走，是为了去喝水。”它会预测下一步的行动是喝水。

这是一种建模。正是因为前额叶皮层的建模，我们才有了「意图」这个东西。换句话说，意图是大脑想象出来的东西。

老鼠本能地前往有水的地方，就如同扫地机器人本能地前往充电插座，这个行为原本只是强化训练的结果，根本谈不上什么意图和目的 —— 是哺乳动物的前额叶皮层没事儿找事儿，非得对这种原始冲动做出建模，提供解释，才发明了意图。

有了意图，才可能有自我意识。这就是为什么现阶段的AI没有意识，因为它们只是自动反应，它们还没有前额叶皮层。

✵

上世纪八十年代，脑神经科学家安东尼奥·达马西奥（Antonio Damasio）接治了一位女中风病人，代号L。L中风的脑区正好是前额叶皮层，这使得她完全失去了意图感。她的身体各方面都没问题，能正常运动也能理解别人说的话，但是她懒得跟人说话，什么都不想做，失去了所有的主动性。六个月后，L在新皮层的其他区域重新映射了一个形成意图的区域，主动性才恢复了。

这个案例生动地证明了前额叶皮层对意图的重要性。这大概也是达马西奥后来形成自己的意识理论的关键启发。

前额叶皮层和感觉皮层都属于新皮层，它们的功能没有本质区别，都是模拟感官、建立模型和做出预测。只不过前额叶皮层模拟的是大脑自身的直觉。

我们大多数行为都只是出于本能，害怕时逃跑，渴了想喝水，都是系统1思维，基底神经节就能协调得很好，前额叶皮层只是默默旁观而已。如果老鼠的前额叶皮层预测的意图正在被实现，它不会干涉。

只有当前额叶皮层的预测产生矛盾的时候，它才会兴奋起来，出手干预。比如老鼠走在一个岔路口，前额叶皮层中的一部分预测它当前的意图是想喝水，这意味着应该往左转；另一部分却预测它此刻想吃东西，应该往右转，这就是矛盾时刻。

前额叶皮层会以某种机制向基底神经节发出信号，要求暂停行动。它安排感觉皮层对两条路分别模拟一番，看看会发生什么 —— 正如AlphaZero下围棋时基于模型的强化学习。模拟结果出来之后，前额叶皮层会把结果展示给基底神经节，促使它采纳某一个选项，比如说向右转。

丹尼尔·卡尼曼说的系统1，也就是快思考，其实就是强化学习带来的本能反应，由基底神经节自动选择；卡尼曼所说的系统2，慢思考，其实就是前额叶皮层感觉到了冲突，先暂停自动反应，发起模拟再做选择，也就是基于模型的强化学习。

爬行动物全都是系统1思维。我们日常大部分时候也都是系统1思维。这很好，这使得我们做开车、走路、吃饭喝水这些日常动作都不需要思考，我们很轻松。只在矛盾时刻，我们才需要调用昂贵的新皮层算力去进行模拟。

✵

前额叶皮层和基底神经节之间的配合可以解释很多现象。

做陌生的事情，我们总要小心翼翼地想想怎么做，就必须调用系统2；一旦熟练了，新皮层就可以放手，全交给基底神经节。

在一个实验中，先训练老鼠一摇杠杆就会得到食物。后来实验人员在食物里加入了让老鼠感到恶心的药物。那你说老鼠还会不会去摇那个杠杆呢？

答案是之前训练次数较少，还没有形成习惯的老鼠会减少摇杠杆的次数，因为这个动作对它们已经没意义了；可是那些训练超过500次，形成了自动习惯的老鼠，哪怕明知得到的食物自己不喜欢，也仍会去摇杠杆 —— 他们的前额叶皮层没有机会介入，基底神经节完全接管了对杠杆的行动。

人不也是如此吗？现在很多人动不动就把手机拿出来看，哪怕多数情况下看手机并没有什么效用。那不是我们深思熟虑的选择，那只是基底神经节的自动动作。

再者，我们所有的意图、目标、人生的意义，都是前额叶皮层想象出来的。而正是这些想象出来的东西能强硬地指导我们的行动。

如果你没有目标，你不会保持注意力。如果你不是主动记得要做什么事，你不会保持工作记忆。如果你认为人生毫无意义，你不会自我控制。这些都是前额叶皮层对基底神经节不断说服的结果。

有意思的是，并不是说前额叶皮层有比基底神经节更高的命令权 —— 其实它所做的只是把想象出来的各种可能性展示给基底神经节看，让基底神经节相信为什么这个选项是对的。

前额叶皮层只是本分地行使新皮层的职能而已，只不过它负责想象的是大事。

✵

额叶皮层的另一个区域，运动皮层，则专门负责想象小事。特别、特别小的事，比如此时前爪应该放在哪里。

通常的中风都爱发生在运动皮层。或者因为血栓让血流流不进去，或者是因为脑出血导致血流中断，反正中风就是某个脑区缺血，失去功能。一旦运动皮层中风，人的四肢就不受控制，严重情况下可能会瘫痪。所以运动皮层的作用是控制身体的运动，对吗？

原本不是如此。现实是运动皮层中风导致瘫痪这个现象只发生在灵长类动物身上。猫狗这些小动物，即便运动皮层受损也不会瘫痪，它们还能走路、觅食。这是为什么呢？

因为运动皮层的作用其实跟其他新皮层一样，也是模拟和预测：它模拟和预测的是身体的运动。

前额叶皮层规划宏观的路线，运动皮层规划四肢的具体动作，它们都跟基底神经节相连……下面图中，越往左边，越是负责更宏观的目标，越往右越是负责具体的行动。

这张图给机器人研究提供了一个启发。我们需要把要做的事情分解成大目标、小目标和具体的行动，各自有负责想象和规划的模块，有负责执行的模块。对哺乳动物来说，正是新皮层和基底神经节的优雅分工，使得大脑能够在不同层次上完成任务。

✵

OpenAI迟迟没有发布GPT-5，但听到一些传闻，说GPT-5将会拥有「系统2思维」。经过这一讲，我们大概能猜测那意味着什么 ——

- 你需要对一个问题建立多个智能体（agents），让每个智能体各自生成答案；

- 你需要一个前额叶皮层之类的机制，对各个答案进行评估，选择最合适的一个，再输出；

- 这两步加起来就是系统2思维；

- 为了节省算力，你需要随时判断什么时候一次直觉输出就够了，什么时候需要调用系统2。

而现今的大语言模型基本上只是系统1思维，纯直觉输出。但我们可以想见，跨越到系统2在技术上一点都不难，难的只是算力而已 —— 毕竟一切都是新皮层。

我们用了三讲才说清楚新皮层的作用，但是人类的智能比这个还要厉害。相对于老鼠，我们的大脑还有两次突破。

《智能简史》5：模型思考者。 6：系统2思维

友情链接更多精彩内容