5.5贝叶斯脑如何判断真伪(因为两个信息错得完全相同的机率极低,脑会收集过量信息互相比对来消除在识别信息的过程中出错的可能性)
我们体验到的是脑认为最可能为真的那部分现实,而脑是如何判断自己从感觉器官处收到的信息为真的?
在第四章中,我们已经知道了脑是如何将物质世界构建为有益体验和有害体验的集合的:大胆预测,不断试错,知错就改,蒙对不改。我们可以推测,脑也是以同样的模式构建对赏罚之外的体验的,并且构建的关键也在于验证对某事物为真的信念是否错误——只要排除了错误的信念,剩下的信念就暂定为现实。
检验对某刺激能带来赏或罚的信念是否错误很简单——如果没有赏罚发生,那信念就是错误或至少部分错误的。问题是脑要怎么知道表示赏罚发生了或没有发生?
例如,每次把硬币投进自动售卖机再按一个按钮就会出来一瓶矿泉水作为“奖赏”,脑就可以预测投币加按按钮能够引发矿泉水出现,如果从未出现过其他情况以否定这种预测,冒失的预测就成为了坚定的信念,联结学习完成了。(反之,如果你也曾碰上过自动售卖机坏了的情况,或许你也会在再次使用另一台自动售卖机时变得有些担心,尽管连续碰到两台故障机几率很低。)但是,我们是可以根据外观和手感预测拿在手中的是一瓶矿泉水,我们要怎么检验这是否不是一瓶矿泉水呢?
很简单,喝一口。(然后发现这是白花蛇草水,顿时改变信念,在自动售卖机和惩罚间建立联结。)
这也正是在5.4中提到的问题的第二部分“如何避免错误地接收信息”的答案——收集冗余信息。
什么是冗余信息呢?冗余信息是在获得的信息已经足够消除绝大多数可能性的情况下只能消除极少可能性的东西,几乎不含有信息量。
如5.4中提到的那样,熟悉英文的人都知道一个非外来语音译的英文单词中的“Q”后面一定会跟着“U”(因为英语无脑沿袭了拉丁文中的规定。源自阿拉伯语的音译词就不是这样,比如Iraq),所以把所有英文单词的“Q”后面的“U”都删除掉似乎没有任何不良影响,还可以使书写变得更高效。这种几乎没有信息量的刺激“U”就是冗余的。
但冗余信息不是毫无信息量的。
如果所有信息都以毫无冗余的最高效形式传递,接收者将无法判断出自己对信息的接收是否正确,而信息很容易受到干扰和出现错误。冗余则有助于发现信息中的错误,以否定接收信息的过程中出现小概率错误的可能性。
例如,发送作为密码的一串乱码一次,接收者无法判断信息是否无误。如果同样的乱码发送两次,两次一致就可以基本确定信息无误,因为同样的随机错误犯两次极为少见。但如果两次不一致,还要发送第三次看这条与哪条一致以判断正确信息是哪条。(信息论在密码学中的地位很重,信息论奠基人香农也是现代密码学奠基人之一,他还是美国的政府密码事务顾问。)
又例如,把query(询问)中的“u”去掉,用qery替代也不会引发歧义。但在手写体中q有时会很像ɑ,没有上下文时可能难以将ɑery(缥缈的)和qery区分。但是,作为冗余的u可以消除这种微弱的可能性,因为没有auery这种词,没人会把query看错。
在刚才提到的买水的例子中,矿泉水的外表已经足以消除它不是矿泉水的绝大多数可能性了,从自动售货机中滚出来的矿泉水瓶中装着茅台的可能性虽然微乎其微,但不能说完全没有(曾有走私犯尝试过把酒伪装成成箱的矿泉水,结果一纸箱酒都被别人搞错当成矿泉水搬走了),而喝一口就可以消除这种可能性。
如上一节所述,作为贝叶斯观察者的脑可以判断哪些事件的发生概率较低,进而忽略那些小概率的可能性。但脑会适度关注冗余信息以防备小概率的可能性成真,以下实验可以证明:
参与者被邀请看一段录像,实验者谎称这是为了测试他们对听觉信息的记忆能力,但实际上录像中的声音是后期剪辑的,说话内容存在差异。如果录像中的人的口形和声音只有微弱不同,比如口形为ma,声音为ba,几乎所有参与者都会认为录像中的人的发音为ba,没有异常。但当录像中的一段话和录像声音的多个发音都出现较大差异时,比如画面和声音完全是两句话,大多数参与者都会发觉蹊跷。这点也可以从我们看译制片时感到的轻微的不和谐感中得到印证。如果想追求利用信息的效率最大,在安静的实验室中获知他人说话的内容并不需要关注口形,口形的视觉信息是冗余的。但作为贝叶斯观察者的脑并没有贸然忽略小概率事件(在事后调查中,参与者普遍表示没想到会碰到一个“腹语师”),而是收集冗余信息避免了小概率的错误。
也就是说,因为两个信息错得完全相同的机率极低,脑会收集过量信息互相比对来消除在识别信息的过程中出错的可能性,提升自己从感觉器官处收到的信息为真的可能性。
5.6贝叶斯脑如何构建物质世界的模型(进化使脑天生具有一些先验信念,脑会在信息尚不充足时提前对某事物进行预测,同时根据对该事物的预测预测出应该收集哪些信息去验证对该事物的预测,并在循环验证中不断更改错误的预测,当预测与新信息的差距变得足够小时,贝叶斯脑会忽略小概率错误,将最可能为真的信念当做现实。)
让我们先来回顾一下第五章的前半部分:我们知道了贝叶斯脑能够优先收集有效信息量最多的信息,再根据新信息改变先验信念,然后把预测准确率较高的后验信念当做现实,同时,脑又会收集冗余信息以防止对信息的识别出错。现在,感知过程中缺失的环节是几个具体过程:脑是如何确立先验信念的?又是如何构建后验信念的?
首先是第一个问题,如果每个信念都建立在另一个先验信念之上,第一个先验信念从何而来?
遗传。
因为某些事实成百上千万年也未曾变化,因为基因的偶然改变而开始天生盲目相信这些事实并具有处理这些信念的能力的个体更容易存活并繁衍,经过漫长的进化,没有这些信念和能力的个体消失殆尽,这些先验信念也成为全人类的共同信念,这些能力也成为全人类的本能。(那第一个基因是怎么产生的?应该仍然是偶然,但我们仍未知道从蛋白质等组成生命的物质到第一个单细胞生物诞生之间的具体过程。)
脑的价值判断标准有很大一部分都来自遗传(心疼约翰·洛克一秒)。例如奖赏细胞会对甜味产生反应,新生儿也不例外,因为自然界中有甜味的物质绝大多数都富有易吸收的热量,有助于生存。(砒霜尝起来也是微甜的。等等,发现这点的人还好吗?)但是不含热量的糖精也因为具有甜味能让奖赏细胞变得活跃(糖精的甜度是蔗糖的500倍),即使我们知道服用糖精对生存没有益处也无法阻止快乐感的产生。(如果在配料表里写上糖精的学名“邻苯甲酰磺酰亚胺”,再注上“3类致癌物,过量服用可导致中毒乃至死亡”,我们可能会产生更多的抗拒感。但一旦放入口中,奖赏细胞依然会一样活跃。实际上所有甜味剂都有微弱毒性,过量服用都有害健康,不过离开剂量谈毒性可是耍流氓。而且高浓度的糖精吃起来是苦的。等等,发现这点的人也还好吗?)
遗传还会影响不与赏罚直接相关的感知过程。例如,当人看向一副以中线为轴顺时针转动的铁皮冲压而成的立体的面具时,不论面具是凸面朝外还是凹面朝外,人都只会看到一幅凸面朝外的面具向自己的方向转过来,连三个月大的婴儿也不例外。
但遗传能够传递的信念数量较少,人类的基因数量只有两万多个,我们的信念,或者说对世界的认识大多是后天形成的,这些认识是怎么形成的?
我们必须再次借助具有相似功能的机器进行类比与推测,这次要借助的是人脸识别程序。
尽管我们大多感觉识别面孔不是非常困难,但对机器来说(其实是对负责编程的程序员来说)则不然。首先是一张脸包含的信息量极大,需要区分出来的面孔总数又极多,面孔信息又很容易因角度不同、光影变化、表情变化或化妆效果等发生变化,必须要根据正在识别的面孔特征计算推演出应该如何“合理扭曲”这张面孔以便和数据库中的面孔以进行比对(程序员可不能要求用户在识别时必须素颜或每次都画一样的妆,也不能要求逃犯总是正向面对摄像头)。也就是程序必须适当地允许和数据库中不一致的面部信息存在,还不能认错人,同时要兼顾识别速度(实际上人脸识别技术已经诞生很久了,只是一开始时识别的图片必须是证件照级别的正面无遮挡素颜照,而且仅在数据不多的犯罪档案库里匹配一张脸都要三四个小时)。脑在识别物体时也要同时满足灵活、准确、快速。
对于面部信息过多的问题,编程者已经有了解决方案。面部识别需要哪些信息点是智能程序利用4.4中提过的深度学习自己得出的,和脑识别人脸时用的是两套标准(我们和计算机都无法使用对方的识别标准)。尽管如今程序准确识别出面孔拥有者必需的信息量已经非常少了(需要数据多的程序也只需128个像素点就能准确识别一张脸,我们可以试试画多少个点才能让朋友认出一张名人的脸),但需要处理加工的信息仍然很多。此时就需要诞生已久的正向推演和反向推演的循环使用模型了。
这套模型的代表性程序就是用来自动查找并更正信息传输错误的循环冗余检查(CRC)。简单来说,程序员在数据的输出端和输入端都设置了同一组简单的多项式算法。输出端每输出若干帧数据,都会把数据代入算法得出结果,这可以称为正向推演。输出端会把计算结果(一小段冗余)附在数据后面,输入端每接收一段数据,都会把计算结果代入相同的算法逆推出数据,这可以称为反向推演。程序会用反向推演出的数据和接收到的数据进行比对,如果一致,说明信息完美传递;如果不一致,输入端就要求输出端再次计算并传输数据和结算结果,自己也会再次接收并逆解计算结果,直到数据和结果分别一致为止。循环冗余检查极大地减少了保证信息传递正确所需的冗余信息数量,而不是把相同的信息传输三遍。
面孔识别程序就是利用多个只涉及少量信息及运算的正反推演轮次降低所需处理的总信息量、错误率和识别所需时间,只不过正反推演的程序更加复杂。
程序会先收集几个关键信息以正向推演(1)出正在识别的面孔大体上可能和哪一批人相符,再反向推演(1)出如果这张脸属于这一批人,应该还能收集到哪些面部信息,并追加搜索(2)微量信息。
如果追加搜索(2)到的新信息和反向推演(1)的结果都不一致,说明此人不在面孔数据库中或者正向推演(1)出错,就重新进行第一轮的正向推演(1)。如果持续两轮不一致,且不一致的地方一致,说明此人确实不在识别名单中(或者镜头中的物体根本不是一张脸)。
如果追加搜索(2)到的新信息和反向推演(1)出的某些人的面部信息一致,就说明这张脸极可能属于这几个人,就要第三次搜集(3)更多面部信息以进行第二轮正向推演,(2)计算出这张脸和哪个人相符。虽然推演中需要加工的信息变多了,但需要比对的面孔数量已经变少了,所以总用时不会太长。接着程序会用第二轮正向推演(2)的结果反向推演(2)得出如果这张脸属于这个人,应该还能搜集(4)到哪些面部信息。
如果追加搜索(4)到的面部信息和第二次反向推演(2)的结果都不一致,说明正向推演(2)出错,就重新进行第二轮的正向推演(2)。
如果追加搜索(4)到的新信息和反向推演(2)出的这个人的面部信息一致,就说明这张脸极可能属于这个人,程序会忽略细微的差别,完成识别。
实际上面部识别的搜索加正反推演的轮数往往不定,而识别的轮数和搜索的面部信息量则与识别失败可能造成的负面后果的严重程度相关。对于无人超市中的刷脸付款机来说,识别错误的影响轻微,但是单位时间内需要识别的人很多,那么以准确率下降为代价放宽识别标准来减少识别时间就是合算的。但如果CIA的绝密档案库大门像电影里那样需要刷脸开锁的话,准确率就是最重要的,多搜索多少冗余信息、花费多少时间都是必要的。(实际上这种安全级别的人脸识别用的大多是热量绘图,即借助特殊热成像摄像机分析出皮肤下的血管热量发生模式并与数据库的资料进行比对,整了容也没用。)
不仅仅是面孔识别程序,各种识物程序都采用了相似的模式。借助正演模型和反演模型的循环使用,识别所需的信息量、识别所需的计算量、验证计算是否正确的计算量都大幅减少,让识别变得更加高效。
我们无法证明脑在识别物体时使用了相同的模式,但有许多作证都指向这种猜测。
以识别面孔为例(现在学术界还有多种较为主流的面孔识别理论假设无法驳倒彼此,我们仍不清楚识别面孔的全部具体过程),以下的实验都是将模糊的面孔图片和清晰的面孔图片进行配对的实验:
人只需极少的信息就能识别出某个图像是一张人脸,即使把一张面孔的分辨率降到只剩15个大型像素点,人也能从一堆同样模糊的图片中认出这是一张人脸。
即使图片还模糊到无法识别出性别,但人们已经能识别出ta的表情是什么,猜到对方的情绪。
当图片模糊到特定程度时(每个人识别面孔的能力差异很大),人们能识别出模糊面孔属于某个名人或自己的熟人,却无法识别出陌生人的模糊面孔。
当实验者刻意呈现和某个参与者的熟人或名人长相相近的陌生人的模糊面孔时,参与者能立刻错误地识别出它属于那个熟人或名人,而当模糊程度降低时,参与者又能立刻认识到自己的错误。但呈现和刚见过的陌生人图片相近的模糊面孔时,参与者进行识别或认识到错误的速度都相对更慢。
人们更容易识别出同种族的人的模糊面孔,更不容易识别出其他族裔的人的模糊面孔。这被称作异族效应。但新生儿在识别面孔时就不会体现异族效应,却会在六到九个月时表现出异族效应。但和各种族人士都有频繁交往的人身上没有显著的异族效应。(异族效应会导致以偏概全的种族观念固化,分不清异族人谁是谁,也就只能把他们当做一个整体看待。更不幸的是,人类更容易记住事物和他人的负面特质。)
甚至远在参与者看到图片之前给予和某个名人相关的暗示都会使他们在之后更容易将这个名人从一组非常模糊的名人图片中识别出来(比如进入实验楼时看到轮椅都能让人在半小时后在实验室做测试时更容易识别出霍金的模糊面孔,而且参与者并不会意识到前者导致了后者。没有关注到的刺激也能引发人们更容易想到和那个刺激相关的事物,这被称为启动效应,通俗来说就是暗示)。
以上实验说明了:脑在信息不足时已经开始预测看到的图片是什么,一旦获取了更多信息,脑就会进行进一步的大胆预测,预测的详细程度总是早于当前的信息足以验证的详细程度;因为预测的次数更多而更容易被预测到的面孔也更容易被识别出来;和面孔信息无关的信息也会被用于预测面孔的主人;当参与者的脑很熟悉应该搜索什么信息以检验预测时,面孔的识别速度更快;如果获得的新信息否定了之前的预测,脑就会进行新的预测。总的来说,和识别某个中性刺激是否和赏罚有关联一样,脑也是通过先大胆预测一张面孔是否属于某个人,再针对性地收集新信息以验证预测的。
至此(本节可真是不短),我们可以有较强的把握推测脑是这样构建我们对物质世界的体验的:进化使脑天生具有一些先验信念,脑会在信息尚不充足时提前对某事物进行预测,同时根据对该事物的预测预测出应该收集哪些信息去验证对该事物的预测,并在循环验证中不断更改错误的预测,当预测与新信息的差距变得足够小时,贝叶斯脑会忽略小概率错误,将最可能为真的信念当做现实。(但有时脑会部分地失去忽视小概率出错状况的能力,强行追求极高的预测准确率,这会导致我们患上各种强迫障碍。)
5.7行动是如何告知我们这个世界的(脑会根据对验证感知目标需要哪些新信息的预测和对行动可以获取哪些新信息的预测制定行动方案,随后在行动过程中验证对感知目标的预测和对行动的预测,提升这两种预测的准确率)
像前两节说的那样,脑需要收集更多新信息对信念进行验证,而收集更多信息的前提则是观测目标自行发生变化或观测途径发生变化。后者又可以分为两种,观测者非针对性的改变和观测者有目的地采取行动验证预测。
早期的计算机程序只能等观测目标自行发生变化,之后很长一段时间内摄像头等信息接收器的移动能力也十分有限。
而脑则可以根据对验证感知目标需要哪些新信息的预测和对行动可以获取哪些新信息的预测制定行动方案,随后在行动过程中验证对感知目标的预测和对行动的预测,提升这两种预测的准确率。
对行动的预测甚至会发生在没有行动意图的情况下。例如,在3.1中曾提到过,猴子一看到手边有物体,控制手部运动的脑区就会活跃。猴子会先想象自己是怎样抓取那个物体的以备不时之需,不论猴子是否真的想去抓它。
而收集信息的行动也可能不会被我们意识到。根据眼球移动的动作捕捉记录,我们的视线的移动次数远比我们认为的频繁。
(未完待续)
点击就送......其它章的读书总结
那么絮叨版和纯净版的区别何在呢?
絮叨版里有括号里的斜体字内容,纯净版里则没有。 为什么会有两个版本?因为一生二,二生三,三生万物嘛。
为什么不是三个版本?呃...