Ashby, F. G., Ennis, J. M., & Spiering, B. J. (2007). A neurobiological theory of automaticity in perceptual categorization. Psychological review, 114(3), 632.
(先夸一下这篇文章真的写的好,虽然是讲神经机制的计算模型,但是因为作者讲得非常详细,逻辑清晰,很复杂的东西读起来一点负担都没有!)
我们每天都在学习各种各样的东西,大脑似乎没有把所有我们看到的信息存下来,而是有选择性地存了一部分。和机器比起来,人的这个“选择性”机制似乎看起来更聪明和高效,即消耗很少地资源我们就可以找到关键的信息。如果能搞清楚人的这个“选择性”机制,说不定可以对机器学习有所启发?
说到选择性保留,我们很容易联想到学习从生疏到熟练的过程,一开始好像是很费脑子的探索,到后来就变得不用过脑子也能做了,似乎是从海量的信息里面保留了最关键信息的过程。
之前的理论大多数也认为,学习的早期一定是有意识参与(必须消耗认知资源,依赖于工作记忆)的,到熟练,自动化了之后则进入内隐的通路(不依赖工作记忆,走着神也可以做的)。对应的神经科学证据也表明,学习的早期主要是PFC的参与,而自动化了之后就转移到了皮层下通路。
而在这篇文章中,作者提出了一个新的模型(SPEED),和之前的模型持相反的观点。首先,和前人不同的是这个模型继承了COVIS的思想,认为学习阶段,不仅有策略参与的过程(rule-based),也有皮层下的学习过程(information-integration)。其次,这个皮层下的学习过程刚开始发生在皮层下(cortical-striatal),而自动化了之后反而向皮层转移(coritcal-cortical)。
COVIS双过程模型
作者认为,我们有两个互相竞争的学习系统,一个是基于规则的学习,另一个是基于信息整合的学习(其实类似于条件反射)。比如对于上图两种不同的学习任务,当我们的分类规则能够被简单规则(单一维度,或多个简单规则的组合)描述的时候,我们的大脑主要使用基于规则的系统;而当这个规则难以描述(下半张图),我们的大脑就会更依赖于基于信息整合的系统。
基于规则比较好理解,基于信息整合是什么呢?对于这个任务来说,我们要整合光栅的频率和朝向两个信息才能对分类做判断,而且这个规则的边界是没法用语言简单描述的,想象一下这时候我们会怎么办呢?有一种可能性,我会形成一个简单的规则,比如“比较正比较密的是A,反之是B”,这个规则会cover60%左右的正确率,但肯定不是全部;还有一种可能性,除了这个策略,我还会凭“感觉”,加上这个“感觉”可以cover90%左右的正确率。那你要说,什么凭感觉,我就是记住了这个光栅呗,不是没有可能,但是要记住80个光栅还真的不容易。
不论是记住了还是凭“感觉”,其实我们都是构建了一个“刺激图像”到“分类(行为)”的映射关系(这个涉及examplar model的争论,可以看作者2017的PR,A Neural Interpretation of Exemplar Theory)。在COVIS模型中,作者认为这个映射是在皮层下通路构建的,相关的证据具体可以看这篇笔记。
这个通路是有点类似人工神经网络的结构:
简单的来说就是图像刺激激活了特定的visual cortex,然后激活striatum,激活thalamus,最后激活premotor cortex,激发分类行为。
为什么内隐学习要使用这个通路呢?一个重要的证据是,内隐学习是基于reward(加强学习),多巴胺就是神经系统中关键的“reward”。多巴胺的释放和清理速度对reward-based学习很重要,如果清理得不快的话,不管response对不对都会被强化,那就没有强化的效果了。在尾核中多巴胺的释放和清理都是非常快的,这种机制使得这条神经通路的灵活性非常好,很适合快速构建映射。
但是这条通路也不能永久的存放学习到的映射关系:第一,因为变化灵活,后学的东西会覆盖之前学的内容;第二,整个通路突触太多,响应时间会很长;第三,这种灵活的结构用来存已经学好的、不怎么需要变化的东西太浪费了。因此作者对COVIS模型进行了拓展,提出了当这个通路自动化之后向皮层转移的神经模型。
SPEED模型
SPPED(subcortical pathways enable expertise development)模型提出,内隐学习的早期是发生在cortical-striatum这条通路里的,这条通路包含三个synapses(visual cortex-basal ganglia-thalamus-premotor cortex)。
cortical-striatum:visual cortex-basal ganglia-thalamus-premotor cortex
当自动化程度比较高了之后,会向更直接的皮层通路cortical-cortical转移,这条通路就是一个synapse(visual cortex-premotor cortex)。因为突触间隙少了,速度就变快。
cortical-cortical:visual cortex-premotor cortex
为什么不能一开始就发生在皮层通路呢?前面说到,多巴胺的释放和清理速度对reward-based学习很重要。在尾核中多巴胺的释放和清理都是非常快的,而在PFC中虽然释放得很快,清理得却很慢,会保持很久。这种机制比较适合动作逐渐熟练之后,稳定的多巴胺水平可以持续强化动作,而学习初期还总是会犯错的时候,不灵活的多巴胺水平是不利于学习的。
另外,Visual cortex-premotor cortex之间的突触增强,依靠的是hebbian learning,也就是突触前和突触后的共同激活。但是前面说了,如果你还不熟练的时候,看到分类A却按了分类B的按键,那不正确的突触也会被增强,这样就没有差异化地激活了。另外,在突触强度低的时候,visual cortex的激活本身也不足以引起premotor cortex的激活。
但是三突触的通路中,突触增强不仅依赖前后的共同激活,还依赖于多巴胺的释放,如果没有多巴胺,那激活的突触很快就会回到正常水平。具体来说,在这条通路中,globus pallidus本来的作用是抑制thalamus,在正确的试次中,多巴胺的释放会抑制globus pallidus,从而使得thalamus的激活水平大幅提升,从而激活premotor cortex对应的区域。通过这个通路,把premotor cortex差异化激活到一定的水平之后,cortical-cortical之间的连接就可以通过hebbian learning来建立了。
简单的来说,一开始你是乱按,随机按AB,如果没有三突触的通路,皮层的这条通路始终无法形成差异化地激活。但是有了三突触的通路,它会根据反馈差异化的激活AB,你逐渐就不是乱按了,而有了倾向性,慢慢正确率就提高了。当差异化程度很高的时候,皮层的突触就能够通过同时激活来形成快速通路了。
计算模型和可拟合的现象
计算公式看上去复杂但是其实很简单,就是首先visual cortex上面的每个visual sensory unit被抽象为一个数值单元;当做2分类任务的时候,把striatum对2个分类的差异化响应区域也抽象为两个数值单元。visual上万个数值单元都分别连到striatum的两个单元上,每个突触连接都有自己的权值w。
学习的过程就是多巴胺根据反馈产生不同的水平变化,从而使得这些权值w发生变化,即正确的试次中激活的w增大,错误的试次中则变小。后面的连接都是单向的,只有一些超参数常量(拟合的过程中用最大相关来确定),没有变化的量。总之就是跟神经网络的结构一样,参数是通过强化学习来变化的。
可以拟合的现象很多,作者认为经典的分类学习现象都可以拟合,文中重点分析的包括:
其他模型不能解释的还包括:为什么帕金森病人有striatal 的问题,他们只是不能学习新的动作,而做已经自动化的动作没问题。
和其他理论的对比
专家模型
Logan’s (1988) instance theory of automaticity 认为我们提取一个记忆是两个过程的竞赛(注意不是竞争),一个过程是需要策略经过计算的,一个是回忆自己做过的类似的事情是怎么做的,当做过的事情越来越多,这个提取的过程就会越来越快。
Rickard (1997) the component power laws (CMPL) theory 和Logan类似,但他认为这两个过程不是并行的,而是只采取其中一种。
Nosofsky and Palmeri’s (1997) exemplar-based random walk (EBRW) model 在脑子里有每个分类的很多exemplars,提取的过程就是这堆记忆里面随机地找,每次有一个exemplar被激活。
以上几个模型都是认知行为模型,没有对应的神经基础。但作者认为,这些模型所描述的exemplar对学习的影响,都是由海马体、内侧颞叶中形成的memory traces产生的。而SPEED模型则强调,这些exemplar的影响主要是由basal ganglia中的皮层下通路产生的。简单点说,以前的观点认为我们记住了一个一个的example和他们的分类label(由皮层调控),而SPEED认为,我们记住的是example到分类label的映射关系(发生在皮层下)。
要注意的是,作者并没有说我们一个examplar都没记住,而是强调内隐学习的作用主要不是由记住每个examplar产生的。同时作者也强调,在II任务中主要起作用的是basal ganglia,但是在其他形式的任务,比如rule-based任务中,内侧颞叶还是可能占主导。还有那种仅有几个实例的学习中,我们也会采取记忆每个examplar的策略,这时候还是皮层占主导。
物体识别模型
物体识别领域的研究发现,随着分类学习的练习不断增多,我们的inferotemporal cortex会对那些和分类有关的特征更加敏感。这个领域的模型(Riesenhuber and Poggio, 1999)在SPEED模型中,其实对visual cortex的描述是很粗糙的,作者认为结合这个物体识别模型,我们可以更详细的描述,视觉信息在视觉皮层经过了怎样的处理再被投射到后面的神经通路中。
读完之后还存在的问题
1. 后续的工作对这个模型的评价,是否有争论?
Ashby, F. G., Turner, B. O., & Horvitz, J. C. (2010). Cortical and basal ganglia contributions to habit learning and automaticity. Trends in cognitive sciences, 14(5), 208-215.
这篇文章是后来作者对这个理论的进一步总结,对之前文章的更新在于,作者也回顾了之前对自动化的认识,以及对之前为什么观察到自动化的行为有纹状体的激活提出可能的解释。
作者认为纹状体主要有两个区域,如下图:
Associative区域在学习的早期被激活,并随着自动化的进行激活程度下降,可能是负责早期的强化学习,建立有效的记忆;
Sensorimotor区域则在学习的早期几乎没有激活,而随着自动化的进行激活程度提高,可能和自动化记忆的表达有关。
简单的来说这篇综述还是在表达作者之前的观点,即自动化的过程是从cortical-striatum向cortical-cortical通路的转移,他自己也提出,这个理论并没有解释,为什么自动化之后sensorimotor区域会得到激活。
Villagrasa, F., Baladron, J., Vitay, J., Schroll, H., Antzoulatos, E. G., Miller, E. K., & Hamker, F. H. (2018). On the role of cortex-basal ganglia interactions for category learning: a neurocomputational approach. Journal of Neuroscience, 38(44), 9551-9562.
这几个作者和ashby好像观点类似,在这篇文章中他们提出了一个计算模型,核心是认为皮层通路的形成,有赖于非皮层通路的帮助,这个和ashby的观点一致。他们提出了更加细致的模型,认为皮层下有三条通路,他们都受多巴胺调控:
- 第一条主要功能是在多巴胺水平高的时候帮助激活和分类有关的神经元
- 第二条是负责抑制和分类无关的神经元
- 第三条也是负责抑制无关的神经元,但是一般在映射关系改变的时候比较活跃
作者说,以往的模型都会认为response对应的是两个固定的输出模块,但是他认为这个应该也是可变的,这样有利于在映射关系改变的时候,可以保留多个映射,而不是把前面抹掉。这样才能体现relearning的savings现象。
另外,这篇工作用到的学习材料可以借鉴一下,是比较难用具体规则描述的一种刺激,就是随机生成两个不同的点阵pattern,刺激就是这个点阵做一些局部的随机变化生成的。而且还用了一个人脸识别的任务,更加地贴近真实。
在这篇文章中还发现,随着刺激的variation增多,纹状体的特异性响应会降低,但是仍然存在。
因为这篇文章是对他们之前一个工作的再分析,之前的工作是:Antzoulatos, E. G., & Miller, E. K. (2011). Differences between neural activity in prefrontal cortex and striatum during learning of novel abstract categories. Neuron, 71(2), 243-249.
Cantwell, G., Riesenhuber, M., Roeder, J. L., & Ashby, F. G. (2017). Perceptual category learning and visual processing: An exercise in computational cognitive neuroscience. Neural Networks, 89, 31-38.
关于讨论部分提到的,在visual层面的处理这个模型并没有给出,所以17年他们就把之前一个比较经典的视觉处理模型HMAX和COVIS合在一起,发现对人的行为数据有不错的拟合结果。
The HMAX model is described in detail elsewhere [Riesenhuber and Poggio (1999); Jiang
et al. (2006); Serre et al. (2007b); Cox and Riesenhuber (2015)]
总之就是用了这个视觉处理模型对raw image的处理结果,得到的特征向量再去学和response对应的连接。(乍一看没毛病,但是学习response的过程不会影响视觉信号的处理?)
2. 外显学习也有自动化的过程,是否和这个过程类似?
Helie, S., Roeder, J. L., & Ashby, F. G. (2010). Evidence for cortical automaticity in rule-based categorization. Journal of Neuroscience, 30(42), 14225-14234.
作者自己也讨论过外显学习的自动化过程,他发现在自动化的过程中,皮层的参与始终都存在,只是皮层下的结构后面也有一定的辅助作用。
- 在自动化之后,皮层的存储看起来也是一个映射,为什么不是存memory trace呢?
- 那我们仍然会记住一些实例的用处是?