4.3脑是怎样学习的(多巴胺可以让生物产生积极体验,积极体验不是对奖赏的反应,而是在预测奖赏)
之前一直在提到“奖赏”,我们是怎么识别出某个刺激是奖赏呢?
一类名为奖赏细胞的神经细胞会在动物进食或进行性活动(奖赏的两种基本形式)时变得活跃,释放名为多巴胺的神经递质(不同刺激引发的多巴胺分泌量差距很大,一块高糖多奶的巧克力带来的快乐比一卡车生菜黄瓜都多,这就是为何我们很难吃得健康)。多巴胺会让人类感到兴奋和愉快。而对老鼠的实验显示,对奖赏细胞的刺激比食物或性更具吸引力。(老鼠甚至愿意为刺激奖赏细胞跑到通电的铁网上。而多种兴奋剂类毒品和酒精都可以影响多巴胺水平。)可以看出,奖赏细胞释放的多巴胺,即快乐体验,是脑及心智衡量某种事物对生存繁衍有无价值的直观标准,生物会倾向于采取能造成多巴胺提升的行为。
但有趣的是,多巴胺并不总是在我们获得奖赏时释放的。
在一个实验中,猴子会在闪光出现一秒后得到果汁。一开始,猴子的奖赏细胞会在得到果汁时变得非常活跃,随即停止活跃。而重复多次后,猴子会像巴甫洛夫的狗那样建立联结,看到闪光时奖赏细胞会变得非常活跃,但随即不再十分活跃,一秒后果汁出现时也未有显著变化;如果一秒后果汁没有出现,那么活跃程度会再次降低。
由此观之,奖赏细胞的活跃不是对奖赏的反应,而是在预测奖赏。(周五晚上往往比周六白天还开心,周日晚上往往比周一白天还惆怅。)如果奖赏和奖赏细胞活跃没有直接对应的关系,我们到底是如何学习的?
4.4错误如何成为我们的老师(在联结学习中,奖赏细胞利用释放多巴胺激励生物尝试引发在奖赏出现前发生的各种事件,并在事件没有引发奖赏时降低多巴胺水平以降低生物再次引发该事件的意愿,一段时间后,生物就只愿意引发有较高概率引发奖赏的事件了。)
总的来说,脑的预测并不基于推理,而是基于统计。奖赏细胞会用多巴胺会给事件赋予价值,再通过试错减弱事件的价值。而这种价值本质上是概率的体现,价值高说明事件发生后奖赏出现的概率高,反之亦然。
脑的预测模式如下:
在预料之外的奖赏出现后,奖赏细胞会通过多巴胺将价值赋予正好发生于奖赏出现前的全部事件。
当标注为“有价值”的任何事件再次出现时,奖赏细胞会立即释放多巴胺,这样生物就会更积极地尝试引发所有被标注为“有价值”的事件。只有大量引发这些事件进行试错,才能获得足够的样本容量判断这些事件哪些更可能有价值、哪些更可能没有。(这也是求知欲和好奇心的来源之一。另外,脑在青春期时会发生变化,奖赏细胞会变得更加活跃,控制恐惧的杏仁核的活跃程度会降低,这提升了人们尝试时的快乐,降低人们面对未知的风险时的恐惧。这有助于青少年积极尝试以积累人生经验,也将他们置于危险之中,这是天性。)
如果某“有价值”的事件发生之后奖赏真的发生了,说明对该事件“有价值”的推测正确了一次,多巴胺水平不变,维持生物引发此事件的意愿。如上个自然段所述,奖赏发生前意愿刚刚被增强过,所以意愿其实增加了。
如果某“有价值”的事件发生之后奖赏没有发生,说明对该事件“有价值”的推测失败了一次,多巴胺水平下降,减弱生物引发此事件的意愿。但因为奖赏发生前意愿也被增强过,所以生物不会轻易失去尝试的意愿。
长期来看:奖赏多次如期出现后,有价值事件的价值会逐渐累加,生物引发有价值事件的意愿也会逐渐变强,而这有利于生物生存繁衍。奖赏多次没有如期出现以后,意愿会降得过低,生物将不会再尝试引发此事件,以保留体力与资源。多数情况下,预测是既有成功也有失败的,而不同事件的价值差异代表着它们引发奖赏的成功率各有不同,生物可以参考成功率选择行动。随着判定了价值的事物越来越多,需要排除的可能性就越来越少,脑判断新事物的价值的速度也会越来越快。
相应的,惩罚也会和奖赏以一样的方式同时影响生物。(人们对损失利益的敏感度远超收获利益的。)
这种学习模式也用在了人工智能程序中,AlphaGo等一众可以自我学习的人工智能程序的突破就在于程序员放弃了靠自己的思考去编写所有代码,而是让程序像脑一样“深度学习”。(AlphaGo的程序员连一个棋谱都没写进程序。)程序员只给程序写少量的判断结果“好”和“坏”的标准的代码,让程序自己去盲目试错,极大地减少了编程的工作量(但判断好坏的标准还是极难编写)。程序先做出随机选择,再用评价标准检验选择,做出大概的判断,然后根据标准给每个选择赋值,相当于让电脑感到“快乐”和“痛苦”(AlphaGo的赋值只有下完这颗棋子之后自己的胜面大则“+1”、对方的胜面大则“-1”这么简单,多种神经递质加复杂水平变化的组合可不止两种),接着调整选择以使下一次选择更加符合评价标准的要求。最终程序通过自己和自己博弈建立起了庞大的简略模型群并总是采取价值更高的选择,同时根据新信息不断调整模型。深度学习和人脑的联结学习模式如出一辙,在部分领域也达到了人脑的水平。(AlphaGo战胜人类这件事本质上是脑战胜了心智。)事实上,现在程序员已经不太清楚那些自主学习程序到底是怎么得出某个运算结果的了,就像我们不清楚自己的脑是如何得出结果的。(理论上程序员也可以看到程序运算记录,只是实在太长了...)
综上,在联结学习中,奖赏细胞利用释放多巴胺激励生物尝试引发在奖赏出现前发生的各种事件,并在事件没有引发奖赏时降低多巴胺水平以降低生物再次引发该事件的意愿,一段时间后,生物就只愿意引发有较高概率引发奖赏的事件了。
4.5脑中的世界图(脑构建了认知地图以记录各个事物间的时空联系,在其中标注出各事物可能引发赏罚的概率,组成物质世界的模型。脑一边根据概率趋利避害地行动,一边根据预测的正误去随时调整这个模型。)
通过联结学习,脑可以给世界中的所有物体和行为都赋予了一个价值:引发奖赏的概率越高,价值就越高;引发惩罚的概率越低,价值就越低,然后按照价值高低趋利避害的行动即可。
问题是世界中的事物如此之多,出现的位置与时间又会改变,我们要如何知道到哪里去找到这些事物以触发奖赏或避开这些事物以躲避惩罚?
在20世纪早期,许多心理学家都认为如果没有赏罚刺激,生物就不会进一步地了解世界,生物是靠一连串的与赏罚密切相关的联结学习来了解事物的空间位置和时间顺序的。例如,小鼠学会走迷宫的过程就是在食物奖励的驱动下不断盲目试错最终建立一系列正确联结的过程。
但爱德华·托尔曼(认知心理学和环境心理学的奠基人之一,和平主义者。虽然他整体上算是认知心理学家,但他从精神分析的角度写了本分析战争起因的书,希望避免或延缓战争的到来。可惜这本书出版时已是1942年。)则证明了生物不需直接的赏罚刺激也可获知事物的时空关系。
托尔曼将三组小鼠放入迷宫的起点(现在已经凑齐了逗狗的、撸猫的、训鸽的、玩鼠的,后面还有观猩的),A组在迷宫终点放入食物,B组不放食物,C组前十天不放食物,第十一天开始在迷宫终点放入食物。结果是A组走迷宫的表现稳步提升,B组没什么进步,C组前十天和B组表现相似,但从第十一天开始,只用三到四天即可追平A组的表现,甩开B组。最合理的解释是,C组的小鼠在尚未出现赏罚刺激的前十天中就已经对迷宫的空间结构有所了解,只是它们缺乏足够的走迷宫的动力,所以一旦有了奖赏作为动力,它们的表现就会快速提升。
托尔曼又做了另一组实验。他将小鼠放在只有12点钟方向有唯一的通道的圆形房间中,通过复杂曲折的通道后可以绕到有食物的小房间,小房间位于圆形房间的3点钟方向。在小鼠可以熟练绕到小房间后,他将小鼠放到一个拥有12条直直地通向12个不同方向的小房间的长暗道(这为了防止小鼠直接看到食物,但气味该怎么办?)的圆形房间中,食物仍放在3点钟方向的房间中,然后将12点钟方向的通道堵死。大多数小鼠并未尝试走和原来的通道相近的1点钟或11点钟方向的通道,而是径直进入3点钟方向的通道。这说明小鼠不仅可以记忆自己亲自走过的“序列地图”,也可以直接获知表示食物和圆形房间的空间位置关系的“综合性地图”。
经过了一些列后续实验(意味着让另一些小鼠和其它生物累得够呛),心理学家证明了许多种生物都拥有可以标注事物的时空关系的“认知地图”,认知地图即可以表明方位或早晚,也可以表明路线或顺序,并且在没有奖惩刺激时生物也会尝试探索周边环境并建立认知地图(我们在看旅游节目时都会不由自主地构建新的认知地图)。就像联结学习那样,认知地图的构建过程往往不会被我们意识到,但我们可以清楚地意识到认知地图的结果。(构建认知地图的过程未有定论,但至少和海马体密切相关,问题就是海马体和所有工作记忆都密切相关,不易单独研究,只能作为信息加工过程中的一部分进行整体研究。有些心理学家认为逻辑、社会关系和认知地图等本质相同。在此就不多说认知地图的构建过程了,因为我也不是很懂...)
至此,我们就了解了脑是如果构建我们对物质世界的体验的第一部分:脑构建认知地图以记录各个事物间的时空联系,在其中标注出各事物可能引发赏罚的概率,组成物质世界的模型,并根据每次预测的正误去随时调整这个模型。只要接近高价值区域,远离低价值区域,生物就有更大的可能获得奖赏、避免惩罚。(这和我们决定在哪个区跳伞、朝哪个方向跑毒圈没太大不同。)
对认知地图的研究也扩展了学习的定义,即使没有赏罚的直接刺激,脑也会去尝试不断在各个事物间建立联系,因为这样做是有潜在利益的。从进化心理学的角度推测,如果能够提前收集有关中性刺激的信息,那么在赏罚出现时就能够更快速准确地预测出引发赏罚的中性刺激是什么,生物也就更容易生存下来,久而久之生物就形成了倾向于扩展完善认知地图的本能。认知地图并不与由赏罚刺激驱动在各事物间建立联系的联结学习模式冲突,而是相互补充。
第四章小节——用过去去预言未来的先知与用未来去窥探过去的时空旅行者
脑是这样构建物质世界的:在受到奖赏或惩罚后,脑会预测在赏罚前出现的所有事物会引发赏罚,然后通过尝试体验预测是否正确来增强或削弱对这些预测的确信度。最终通过大量统计为所有事物都预测了可能引发赏罚的概率,即“价值”。脑还构建了认知地图以标注事物的时空关系,组成了充满价值标签的物质世界模型,一边根据概率趋利避害地行动,一边根据新信息调整对概率的预测。
(未完待续)
点击就送......其它章的读书总结
那么絮叨版和纯净版的区别何在呢?
絮叨版里有括号里的斜体字内容,纯净版里则没有。为什么有两个版本?就像有人喜欢吃油条蘸酱油,有人喜欢吃原味油条嘛,所以两个版本也算是为南北和谐共处做贡献了。唔,好像解释不通啊...