人的视觉系统的注意力:场景的动态表示

Rensink, Ronald A. 

The dynamic representation of scenes. Visual cognition, 

7(1-3):17–42, 2000.

https://readpaper.com/paper/2122710056

在Show, attend and tell中被提及

视觉创造的一个更强大的印象是一个连贯的、细节丰富的世界,在这个世界上,一切都同时存在。事实上,这种印象是如此令人信服,以至于我们倾向于将这些属性不仅归因于外部世界,也归因于我们的内部表征。但最近几次实验的结果反对后一种说法。例如,在扫视、闪烁、眨眼或电影剪辑过程中,现实世界场景图像中的变化通常不会引起注意。这种“变化盲症”提供了强有力的证据,证明我们的大脑中包含了一种场景的图像化表示,这种表示到处都是细节和连贯的。那么我们如何表现一个场景呢?有人认为,集中注意力提供了时空连贯性的稳定表示一个对象的时间。然后有人认为,注意力的分配可以协调起来,以创造一种“虚拟表征”。在这种方案中,形成了稳定的对象表示

Corbetta, Maurizio and Shulman, Gordon L. Control of goal directed and stimulus-driven attention in the brain. Nature re

views neuroscience, 3(3):201–215, 2002.

https://readpaper.com/paper/2019370496

在Show, attend and tell中被提及

我们回顾了执行不同注意功能的部分分离的大脑区域网络的证据。其中一个系统包括顶叶内皮质和上额叶皮质的部分,负责准备和应用目标导向(自上而下)的刺激和反应选择。该系统还通过检测刺激来调节。另一个系统,包括颞顶皮质和下额叶皮质,大部分位于右侧半球,不参与自上而下的选择。相反,该系统专门用于检测与行为相关的刺激,特别是当刺激显著或意外时。这个腹侧额顶网络是背部系统的“断路器”,将注意力引导到显著事件上。这两个注意系统在正常视觉中相互作用,并且在单侧空间忽略中都受到干扰。

花书的第9章,9.10节有这样的描述:

人眼大部分是非常低的分辨率,除了一个被称为中央凹(fovea)的小块。中央凹仅观察在手臂长度距离内一块拇指大小的区域。虽然我们觉得自己可以看到高分辨率的整个场景,但这是由大脑的潜意识部分创建的错觉,因为它“缝合”了我们瞥见的若干个小区域。大多数卷积网络实际上接收大的全分辨率的照片作为输入。人类大脑控制几次眼动,称为扫视(saccade),以瞥见场景中最显眼的或任务相关的部分。将类似的注意力机制融入深度学习模型是一个活跃的研究方向。



The Dynamic Representation of Scenes (ubc.ca)

The Dynamic Representation of Scenes (ubc.ca)

  One of the more powerful impressions created by vision is that of a coherent, richly detailed world where everything is present simultaneously. Indeed, this impression is so compelling that we tend to ascribe these properties not only to the external world, but to our internal representations as well.  But results from several recent experiments argue against this latter ascription.  For example, changes in images of real-world scenes often go unnoticed when made during a saccade, flicker, blink, or movie cut.  This “change blindness” provides strong evidence against the idea that our brains contain a picture-like representation of the scene that is everywhere detailed and coherent.  


 How then do we represent a scene?  It is argued here that focused attention provides spatiotemporal coherence for the stable representation of one object at a time.  It is then argued that the allocation of attention can be co-ordinated to create a “virtual representation”.  In such a scheme, a stable object representation is formed whenever needed, making it appear to higher levels asif all objectsin the scene are represented in detail simultaneously. 



视觉创造的一个更强大的印象是一个连贯的、细节丰富的世界,在这个世界上,一切都同时存在。事实上,这种印象是如此令人信服,以至于我们倾向于将这些属性不仅归因于外部世界,也归因于我们的内部表征。但最近几次实验的结果反对后一种说法。例如,在扫视、闪烁、眨眼或电影剪辑过程中,现实世界场景图像中的变化通常不会引起注意。这种“变化盲症”提供了强有力的证据,反驳我们的大脑中包含了一种场景的图像化表示,这种表示到处都是细节和连贯的。

那么我们如何表现一个场景呢?有人认为,集中注意力提供了时空连贯性的稳定表示一个对象的时间。然后有人认为,注意力的分配可以协调起来,以创造一种“虚拟表征”。在这种方案中,只要需要,就可以形成稳定的对象表示,使其看起来更高层次,就像场景中的所有对象都同时被详细表示一样。

引言

作为观察者,我们最令人信服的印象之一是,我们被一个连贯、丰富的细节世界所包围,在这个世界中,一切都同时存在。虽然我们的环境确实是这样的,但这种印象是如此令人信服,以至于我们倾向于相信这些属性也适用于我们的表征——也就是说,我们相信我们大脑中的某个地方是我们周围稳定而详细的世界的稳定而详细的表征。

但这样的代表真的存在吗?视觉信息的收集是通过一个只有几度视角的高分辨率视网膜来完成的。因此,完整的场景表示需要通过高容量视觉缓冲区整合单个眼睛注视的内容(例如,Feldman,1985;Trehub,1991,1994)。但视网膜表现的不均匀性排除了简单的固定叠加,因此任何整合过程都不那么简单(Yeshurun&Schwartz,1989)。此外,即使可以进行整合,也不清楚是否应该进行整合。即使对人类神经系统来说,用与中心凹视觉相同的细节来表示我们周围环境的计算要求也是压倒性的(Rojer&Schwartz,1990)。即使所有这些信息都能以某种方式保存在我们的大脑中,其数量之多也会导致更高层次的过程对其有效访问产生严重问题(Tsotsos,1990)。

这些理论保留得到了几行实验工作的支持,所有这些工作都未能找到整合视觉缓冲的证据(见Irwin,1996;Simons&Levin,1997)。例如,当在闪烁、眨眼、眼球运动、电影剪辑或其他此类中断期间进行更改时,真实世界场景的图像中的更改变得难以检测。这种“变化盲症”表明,积累的详细信息很少。否则,通过将即时视觉输入与缓冲区的内容进行比较,或者通过检测原始图像和变化图像叠加形成的异常结构,变化检测将很容易。事实上,在各种条件下都可能导致变化盲目性,加上基本效应的强度和鲁棒性,这表明未能积累详细信息并不是仅在特殊情况下才会发生的异常现象。相反,它是我们代表周围世界的方式的核心。

但如果我们如此不善于积累视觉细节,我们怎么能看到变化呢?如果我们没有随处可见的细节和连贯的表现,为什么我们会有如此强烈的印象,认为这些表现构成了我们视觉体验的基础?

本文对这些问题提出了一些可能的答案。它首先概述了注意力的连贯性理论,该理论描述了集中注意力如何形成稳定的结构,从而能够感知物体的变化。然后引入虚拟表示的概念来解释如何协调注意力,以便稀疏的一组稳定结构可以给人一种场景表示在任何地方都是稳定和详细的印象。最后,提出了一种三元体系结构,展示了如何以与已知的视觉处理一致的方式创建虚拟表示。

如果我们不能积累视觉细节,我们怎么能看到变化呢?为什么有些条件会导致变化盲,而其他条件则不会?这里提出的答案基于这样一个建议,即需要集中注意力才能看到变化(Rensink,1997;Rensink,O'Regan和Clark,1997)。在正常情况下,世界上的任何变化都伴随着一个运动信号,它会引起人们对其位置的注意(例如Klein、Kingstone和Pontefract,1992)。只有当该局部信号减弱(通过与扫视、闪烁、眼球链接、喷溅等相关的瞬变)时,这种注意力引导才会丢失,从而导致失明。

然而,这种解释产生了一个明显的悖论。注意力被认为是将视觉特征“焊接”到相对持久的对象表示上(Kahneman、Treisman和Gibbs,1992;Kanwisher和Driver,1992)。它也被认为运行速度相对较快,每秒运行20-40个项目(例如Julesz,1984;Wolfe,1994)。但如果是这样的话,为什么运动信号的淹没会导致变化盲?为什么注意力不能在观察的最初几秒钟内简单地焊接所有可见的项目,从而在所有条件下都能轻松检测到变化?

这个问题的答案直指被关注的核心。本文提出注意效应主要与连贯性有关。如本文所用,该术语不仅表示一组表征结构1中的一致性,而且还表示逻辑互连,即,结构指世界上相同时空实体的部分的一致性。因此,如果两个相邻结构指的是在空间上延伸的相同对象,则它们在空间上是相干的。同样,如果两个连续的结构指的是同一个对象,则它们在时间上是一致的,并随时间延长。

此外,与其假设由注意力形成的结构可以无限期地持续下去,不如假设它们的寿命实际上相当短暂。特别是,注意力可能赋予结构一种连贯性,这种连贯性只有在注意力指向结构时才会持续。发展这一思路将导致注意力的连贯性理论:

(1) 在集中注意力之前,低水平的“原型物体”会在整个视野中快速平行地形成。这些原始物体可能相当复杂,但在空间和时间上的连贯性有限。因此,它们是不稳定的,当任何新的刺激出现在它们的视网膜位置时,它们就会被替换。

(2) 集中注意力就像一只隐喻之手,从不断再生的能量流中抓住少数原型物体。当这些物体被持有时,它们形成了一个稳定的物体,在空间和时间上具有更高的一致性。由于时间的连续性,该位置的任何新刺激都被视为现有结构的变化,而不是新结构的出现。

(3) 在集中注意力被释放后,物体失去了连贯性,并分解回其组成的原始物体。很少或根本没有参加的“后遗症”。

根据连贯理论,只有在刺激发生变化时给予集中注意力,才能看到刺激的变化。由于在任何时候只能观看少量项目(如Pashler,1988;Pylyshyn&Storm,1988),因此场景中的大多数项目都不会有稳定的表现。因此,如果不能自动将注意力转移到变更上,则变更项目不太可能被关注,并且很可能会出现变更盲症。

无人值守原型对象的有限相干性

通常认为,视觉感知的最低水平2提供了对观看者可见的基于场景的属性的详细地图式表示或“草图”(图1)。这些代表性结构被认为是视网膜主题,并在图像中快速(即几百毫秒内)平行形成,无需集中注意力(例如Marr,1982;Rensink,1992;Rensink&Enns,1998)。由于不涉及集中注意力,连贯理论认为这些结构在空间和时间上的连贯性是有限的。

空间相干性有限的大部分证据来自视觉研究实验。早期研究的结果表明,空间连贯性是最小的,没有参与的结构仅限于简单的斑点和条状物(例如Julesz,1984)。但是,尽管这一初级阶段反映了可靠测量的局限性,但它并不反映低级处理的局限性。后来的实验表明存在第二阶段,在该阶段中,局部交互能够“快速且肮脏”地恢复各种基于场景的属性,如面部曲率(Ramachandran,1988)、倾斜(Enns&Rensink,1991)和阴影(Rensink&Cavanagh,1993)。但即使在这一阶段,收集信息的范围也存在限制,例如,对于大于4°的项目,快速线解释失败(von Grünau&Dubé,1994)。

在第二阶段发现了几种类型的快速分组(Elder&Zucker,1993;Rensink&Enns,1995),以及闭塞图形的快速完成(Enns&Rensink,1992;He&Nakayama,1992;Rensink&Enns,1998)。因此,低水平过程似乎不仅与基于地层的属性的恢复有关,而且还与它们形成“原始物体”有关,即与世界上的局部结构相对复杂的碎片组合。最近的研究还表明,原型物体是直接引起注意的最低层次的结构,它们的许多基本细节只有经过深思熟虑才能获得(例如Rensink&Enns,1995年、1998年)。因此,原型对象具有“双面”性质,不仅是低级视觉的最高级别输出,而且是高级注意过程可以作用的最低级别操作数。

原始物体有限时间一致性的证据主要来自视觉整合的研究,该研究表明,只有当刺激物位于同一视网膜位置且彼此相距约100毫秒时,刺激物才能随时间整合(例如Dillolo,1980)。超出这些限制,似乎无法添加、比较或以其他方式组合连续演示文稿的细节(如Irwin,1996)。这些结果,加上变化盲研究的结果,提供了强有力的证据,证明早期水平的结构具有内在的不稳定性:它们要么被后续刺激覆盖,要么在几百毫秒内消失(Rensink,O'Regan和Clark,1997年,本期)。请注意,这种波动性处于原型对象的水平,而不是pix els。如果一个新的刺激物中间有一个空白,那么该位置的内容将是新原型对象的一部分,因此仍将被覆盖(Enns&Dillo,1997;Rensink,本期)。总之,在任何特定的固定中形成的草图都可能非常详细,但几乎没有连贯性,只要光线继续进入眼睛,就会持续再生,并且在每次眼球运动后基本上会重新生成。3.

鉴于无人看管的结构只有有限的空间和时间连贯性,因此集中注意力必须提供连贯性,将它们编织成更大规模的物体,并允许它们随时间保持连续性。注意,后一个属性4对于变化的感知尤其重要,因为连续性允许将新刺激的出现视为现有结构的转换,而不是全新结构的形成。

因此,在这种观点中,集中注意力与对物体的感知密切相关。物体的基本属性包括要求它是离散的,与背景不同,并且在空间和时间上具有一致性。它也必须是一个个体,从字面上说,如果一个物体被拆开,它就不能被分割而不失去其完整性,其结果是一组部分,而不是一组与原始物体相似的物体(例如,Smith,1998)。

为了捕捉这些特性,连贯理论认为集中注意力一次只涉及一个物体的表现。这一限制来自研究表明,对于某些任务,注意力似乎只作用于一个对象(例如,Deubel&Schneider,1996;Garavan,1998;Rensink,1998a)。与较低层次结构的注意互动被认为是通过一个关系发生的,这个关系是一个单一的结构,包含对被注意对象的简要描述,例如其大小、整体形状和主色调。在nexus中,内部连接可以计算这些总和属性,并提供一种简单存储它们的方法。6.

当一个原型对象被关注时,它和nexus之间就建立了一个链接,从而在这些结构之间实现了信息的双向传输(图2)。链接上的信息允许nexus从参与的proto对象获取所选属性的描述。沿着链路传输的信息反过来可以为易挥发的原始物体提供稳定性,使其在短暂遮挡或眼睛移动时能够保持或快速再生。除其他外,链接还可以在不断变化的原始对象坐标和更稳定的以观察者(或对象)为中心的nexus坐标之间进行映射。当链接在nexus和它的原型对象之间建立了一个循环的信息流时,产生的电路被称为相干场。

实验还表明,对于某些任务,可以同时参加四到六个项目(例如,Pylyshyn&Storm,1988;Rensink,本期)。在这种情况下,相干场仍然包含一个单一的nexus,但现在扩展到包括几个原型对象,通过与这些结构的链接确定nexus属性(图2)。关系与其原型对象之间的信息循环流动不仅在空间上建立了连贯性,而且还形成了一种记忆,在时间上也建立了连贯性。用一种更具隐喻性的方式来描述这一点,注意力可以被视为一只手,它用大约四到六个“手指”来“抓住”原型对象,所选择的结构然后形成一个连贯的对象,只要它们被“握住”。

请注意,nexus及其原型对象形成了一个“局部层次结构”,只有两个级别的描述(对象级和零件级)。这种层次结构是一种非常有用的方法,也是表示对象的自然方式(Marr,1982,第305-307页)。例如,一个原型对象可以被注意地细分,并将链接分配给它的各个部分;这将对应于向下遍历该对象的部分-整个层次结构的一个级别。相反,链接可以分配给几个广泛分离的原型对象,形成一个组,该组将对应于一级以上的(粗编码)对象。因此,即使集中注意力的能力可能有限(如Pashler,1988;Rensink,本期),快速遍历部分-整个层次结构的能力使其能够快速访问对象结构的任何方面。

在任何时候都可以参与的信息量有限,这解释了为什么观察员无法检测到“参与”对象的变化(Levin&Simons,1997)。当注意力集中在世界上的某个事物上时,通常不可能在一个连贯的领域中表现出它的所有细节,只有它的几个方面可以在任何时候在关系中表现出来。如果所代表的一个方面是世界上变化的一个方面,那么变化就会被看到;否则,改变的盲目性仍然会产生。

相干理论的最后一部分涉及一旦焦点被转移,相干场的命运。考虑到一次只能代表一个物体,如果注意力转移到另一个物体上,相干场就无法维持。在这种情况下,链接被解除,先前参与的部分恢复为其作为易失性原型对象的原始状态。再次诉诸于手的隐喻:集中注意力的释放就像手上物品的释放,这些物品回到“原始软泥”,即不断再生的低层次结构的流动。

因此,从这个角度来看,将注意力集中在一个结构上几乎没有或没有什么后遗症,至少在检测变化的能力方面是如此。当然,对于之前参加过的项目,存在短期记忆(STM)(如Cowan,1988)。但在这里,STM是一种与对象类型有关的抽象内存;相反,一致性场被认为体现了视觉短时记忆(vSTM),一种支持对象标记形成的纯视觉记忆,因此在注意力被撤回后可能包含很少或没有信息。

在极端情况下,vSTM可以被识别为由相干场形成的记忆,这导致除了所关注的内容之外没有vSTM的位置。换句话说,关注一个项目对于它在vSTM中是必要和充分的。这一立场的证据好坏参半(如Pashler&Carrier,1996年)。但生理学研究表明,短期(或工作)记忆的机制与集中视觉注意力的机制相似,事实上,这两种机制非常相似,可能根本没有区别(Awh&Jonides,1998;Desimone,1996)。此外,心理物理学研究表明,对于以前参与视觉搜索任务的项目,可能完全缺乏记忆(Wolfe,1996)。因此,这一立场似乎至少得到了某种程度的支持。

与其他工作的关系

Shiffrin和Schneider(1977年)最有影响力的早期注意力模型之一。在他们看来,STM是LTM的“激活”子集,注意选择要激活的特定LTM项目。连贯理论在几个方面与此不同。首先,它将注意力视为直接时空结构(或标记)的形成,而不是长期类别(或类型)的激活。其次,Shiffrin和Schneider认为,经过充分实践后,任何过程都可以在没有注意的情况下运行,而连贯性理论则认为对变化的感知总是需要注意。最后,Shiffrin和Schneider提出的激活可以在注意力被撤回后持续,而当这种情况发生时,相干场会崩溃。需要注意的是,根据相干理论,STM仍有可能持续激活。这里的建议是,这对于vSTM(或视觉工作记忆)是不可能的,vSTM是一个完全与时空结构相关的完全不同的系统。

相干场的概念更接近于Kahneman等人(1992)的建议,即时空结构由“对象文件”表示,其中各种属性绑定在一起。两种观点都认为,有注意的表征结构只需要描述时空实体,而不需要与长期记忆中存储的描述相匹配。但是,尽管对象文件可能包含关于非可视属性的信息(例如要做出的适当响应),但nexus属性仅限于纯粹的可视属性,或可从可视属性派生的抽象属性(例如语义标识)。更重要的是,一旦建立,一个目标文件可能会被处理,也可能不会被处理,因此一次可以维护多个文件;相反,只有一个连接点(可能链接到多个结构),一旦注意力被撤回,其相关场就会崩溃。

尤其是相干场的概念,其链接集也与Pylyshyn和Storm(1988)提出的FINSTs(“实例化的手指”)概念有一些相似之处。finst是指针,它提供有人参与的对象的访问路径,不断地向更高级别的进程通知它们的位置;据推测,一次大约可以使用五个Finst。finst和link都为高级流程提供了有关低级结构的信息,并且都可以稳定这些结构以获得随时间的连续性。但是FinstStrans只是将一个项目的位置提升到更高的层次,而链接则以循环的方式传递多种视觉信息。此外,FinSt被分配给完全独立的对象,而链接则被纳入一个对应于单个对象的关系中(尽管该对象可能有多个部分)。7因为FinSt有尽可能多的链接,链接可能解释FinSt解释的所有结果,例如跟踪和subitizing(Pylyshyn&Storm,1988;Trick&Pylyshyn,1993)。此外,单个nexus的约束解释了为什么显示器中孤立点的跟踪可以更好地解释为单个虚拟对象的角点跟踪(Yantis,1992)。

连贯理论也与研究相一致,研究表明,当观察者关注场景中的特定对象或事件时,他们往往无法报告其他意外项目的出现(Mack&Rock,1998)。最近的研究表明,与其说没有看到这些项目,不如说没有记住它们(Moore&Egeth,1997;Wolfe,1997)。这种解释与感知的“此时此地”是一致的,在这种“此时此地”中,相当详细和复杂的不稳定表现在没有注意的情况下不断地构建和重建。

虚拟表示

先前提出的注意力理论有一个相当违反直觉的含义:在任何时候,一个环境或场景中只有一个物体可以被给予连贯的表示。此外,这种表示在其可包含的信息量上是有限的。但如果是这样,为什么我们没有注意到这些限制?为什么我们觉得大脑中的某个地方是场景中所有物体的完整、详细的再现?

要回答这个问题,考虑如何在日常生活中使用对象。对于大多数任务,任何时候都只有一个物体在起作用:一个杯子被抓住,一个朋友被认出,一个超速的骑车人被避开。此“目标”对象可能需要详细表示,但其他对象不需要详细表示。尽管似乎有一些任务(如杂耍)属于例外情况,但这些任务通常是通过快速来回切换来处理的,因此在任何时候都只有一个目标。因此,尽管我们可能需要表示场景的各个方面(例如背景),但在任何特定时间,我们似乎都不需要对场景中的多个对象进行详细表示。

这种认识产生了虚拟表示的想法:我们不需要对周围的所有对象进行详细的表示,而只表示眼前需要的对象。如果可以协调注意力,以便在需要时形成一个对象的连贯、详细的表示,那么场景的表示将出现在更高的层次上,就好像它是“真实的”,也就是说,就好像所有对象都同时以非常详细的方式表示一样。这样的表示将拥有真实表示的所有功能,同时在处理和内存资源方面所需的资源将少得多。

示例:访问计算机网络

为了更好地理解虚拟表示的含义,考虑访问包含在诸如万维网(图3)的大型网络中的数据的问题。一方面是浏览器工作站,它在内存中所能保存的信息量有限。另一方面是网络,数千台机器拥有信息。假设现在我们希望工作站访问包含在不同站点的数据。这应该如何处理?

如果有足够的内存,工作站可以包含网络中所有计算机中包含的所有数据的完整副本。但这需要大量的内存。此外,每次从网络上的一台机器添加或删除数据时,都必须将数据广播给所有其他机器,从而导致巨大的传输成本。

因此,网络设计通常支持更动态的数据访问方法。如果我们想查看特定站点上的信息,我们的工作站会检查它是否已经在内存中。如果是这样,就不需要做更多的事情了。否则,它将向适当的站点发送请求,并加载请求的信息(图3)。如果传输速度足够快,我们的工作站将显示包含网络中的所有信息。但在现实中,这些信息将只有一个虚拟的表示形式:它不是全部同时出现在工作站中,而是在需要时被简单地访问。8.

为了了解这种策略如何解释具有有限容量注意力机制的场景感知,考虑两个问题之间的相似之处:

工作站可以容纳一个(或最多几个)站点的内容。

网络上有数千个站点,包含大量信息。

工作站无法保存所有这些信息。

注意力可以控制一个(或最多几个)物体的内容

可见场景中有数千个对象,包含大量信息。

注意力无法掌握所有这些信息。

考虑到问题的类似结构,可以使用类似的解决方案(图4):

如果站点中的信息已保存在内存中,请使用它。

如果某个对象的信息已被处理,请使用它。

否则,请找到所需的站点,并加载信息。

否则,请定位所需的原型对象,并使其一致。

结果是网络内容的虚拟表示。

结果是可见场景内容的虚拟表示。

在计算机网络的情况下,如果一个低容量工作站(仅限于一个或两个站点)同时保存网络上的所有信息,那么网络请求的有效协调就显得非常重要。类似地,注意力请求的有效协调可以使高级过程看起来好像一个有限容量的连贯场(限于一个或两个对象)同时持有场景中所有对象的所有信息。

因此,即使我们有意识的头脑可能会有这样的印象,即我们面前的所有物体都在我们大脑的某个地方同时得到了详细、连贯的表示,但情况并非如此。相反,这可能源于一个更为稀疏的“即时”系统,该系统只是在正确的时间提供正确的对象表示。

需要注意的是,这种完整感并不一定意味着表示真的是完整的,也就是说,它表示视图中的所有对象。这也并不意味着它正确地代表了所有这些。与静态“真实”表示一样,动态虚拟表示可能无法表示特定对象,或者可能表示不正确。因此,表示的虚拟或真实程度与其准确性或完整性无关。

成功运作的条件

尽管虚拟表示可以节省大量计算资源,但这些节省并不是免费的。虚拟表示通过在时间上权衡增加的复杂性来降低空间上的复杂性。只有特定类型的信息处理任务才能利用这种权衡。视觉感知是其中之一吗?

虚拟表示法成功运行的关键在于:(1)在任何时候,只有一个(或最多几个)对象需要“真实”表示法;(2)在需要时,必须提供有关任何对象的详细信息。对于大多数(如果不是全部)视觉任务,第一个要求很容易满足。我们通常一次只需要注意一个物体,例如,抓住它,或者看看它的方向。涉及多个目标对象的任务通常可以通过“分时”来处理,即通过在对象之间快速来回切换注意力。

在大多数正常观看条件下,也满足了按请求访问的要求。如果有一种方法可以将眼球运动和注意力转移到所请求对象的位置,则可以从入射光流中获得视觉细节。因此,不需要对象的高容量视觉记忆—信息通常可以从世界本身获得。正如Stroud(1955)很久以前指出的那样:“由于我们的照明通常是连续的阳光,并且大部分风景保持不变,因此物理对象可以作为自己的短期记忆。”。斯特劳德的洞见最近得到了复兴,有几项建议进一步支持这样一种观点,即大部分感知是通过将世界作为其自身的最佳模型来理解的(例如布鲁克斯,1991年;丹尼特,1991年;格里姆斯,1996年;奥雷根,1992年)。

请注意,当光线无法将信息从物体传送到眼睛时,或者当物体本身被某种方式遮挡时,此方案会出现问题。但这些条件也会干扰物体感知本身,不管使用的是何种记忆模式,因此不会对虚拟表征的使用构成严重障碍。

更重要的是从短期(或工作)知觉的角度考虑照明和遮挡,也就是说,在几秒钟的持续时间内感知事件。由于白天的照明相当恒定,因此在某个特定时间看到的物体几乎总是在很短的时间后被照亮。因此,光照波动不太可能干扰短期感知。同样,在几秒钟的时间内,先前看到的物体突然被遮挡的情况也相对少见。因此,关于在某一特定时间看到的对象的信息在几秒钟后几乎总是可用的。因此,虚拟表示可以是处理真实场景中包含的大量信息的可靠和有效的方法,至少对于短期感知而言是如此。

普遍适用性

虚拟表示是一种强大的信息处理策略,是现代计算机和网络设计的核心(例如Tanenbaum,1976)。不幸的是,这种表现形式长期以来一直被忽视,作为解释知觉和认知加工的一种方式,直到最近才开始探索其在这方面的潜力(例如Brooks,1991;Dennett,1991)。甚至这些研究中的许多都不是集中在生物信息处理上,而是演示了它在人工系统中的有效性。

在最一般的层面上,关于虚拟表征的工作说明了指示(或索引)表征的力量。在指示语表征中,对细节信息的记忆很少;相反,重点放在提取几个关键的“方面”,然后作为世界实体的指针(例如Ballard、Hayhoe、Pook和Rao,1997;Clancey,1997)。子系统之间的交互也可以通过这种方式处理,使用一些关键的行为方面,而不是目标或其他子系统中信息的详细表示(例如Brooks,1991)。在所有这些情况下,指示表征的力量是由表征结构及其语境(即世界本身或一组相互作用的子系统)共同决定的。在这一观点中,表征并不构成世界或其邻居的副本,而是简单地协调所涉及的各种系统的行动。

三元结构

虚拟表征在人类视觉中的成功应用需要在适当的时间对适当的物体进行眼球运动和注意力转移。但是什么引导了这些运动和转变?在人们注意到一个物体之前,如何知道它的位置?如果注意力没有后遗症,那么在注意力被撤回后,怎么会有对场景的记忆呢?

对所有这些问题的明确、详细的回答将在很大程度上构成一个完整的愿景理论,而这一理论目前尚不存在。因此,本节仅提供一种可能性的示意图。这张草图并不意味着是确定的。相反,它只是为了表明可以对这些问题给出一个答案,一个允许以与人类视觉处理相关的方式进行虚拟表示的答案。

这里提出的解决方案首先抛弃了所有视觉加工都通过一个单一注意点的假设。尽管这种“以注意力为中心”的视觉模式具有极大的直觉吸引力,但它可能与现实不符。最近的研究表明,可能不存在单一的注意点:在视觉系统的不同层次上,甚至可能在不同的处理流中,可能会发现被松散地定义为“注意”的能力有限的过程(例如Allport,1992)。如果是这样的话,用于物体感知的注意系统将只是众多系统中的一个,其他系统同时运行,并且在很大程度上独立于它。

进一步发展这一观点将导致三元体系结构,其中包含三个基本独立的系统(图5)。第一种是低层次系统,它可以快速创建高度详细、不稳定的结构。第二个是一个容量有限的注意力系统,它将这些结构形成稳定的对象表征。这两个系统已经是连贯理论的一部分。现在增加的是一个容量有限的非注意力系统,它提供了引导注意力的设置10。该“设置系统”至少涉及场景结构的三个方面:

(1) 对场景的抽象意义或要点的感知(例如,场景是否为海港、城市、野餐、谷仓等)。这可以提供一种有用的方法来区分注意力的优先级,将注意力引导到在这种情况下最重要的对象。

(2) 感知场景中对象的空间排列或布局。这可以提供各种结构位置的非易失性表示,当注意力被引导到场景中的特定对象时,可以使用该表示。

(3) 调用存储在长期内存中的抽象场景模式,可能是通过要点或布局信息。一旦调用,这可以促进对这两个量的感知,并最终通过相关的交互促进对对象的感知。

这种架构与早期的提议有些相似,即场景感知涉及到对要点的初步提取和随后对细节的细化(例如Loftus,1976)。然而,它与这些不同之处在于,从未构建完整的场景表示,尽管在观看过程中可以改进要点和布局的表示,但在任何时间始终只保留一个连贯的对象表示。因此,这种架构体现了视角的根本变化:场景表示不再是由眼球运动和注意力转移建立起来的结构,而是指导这些活动的结构。

主旨

一个场景最抽象的方面是它的意义,或主旨。该数量在许多不同的眼睛位置和视点以及环境中对象的组成和布局的变化中保持不变。因此,它可以对预期的对象类型提供稳定的约束,甚至可能表明它们对手头任务的重要性(Friedman,1979)。

Gist可以在演示后120毫秒内确定(Biederman,1981;Intraub,1981;Potter,1976),这段时间不足以处理两到三个以上的项目。此外,它可以从高度模糊的图像中提取,并且实际上不需要注意,可以同时确定两个不同的GIST(Oliva&Schyns,1997)。与这些发现一致,gist似乎不是由同时或甚至事后感知的对象决定的(例如Henderson,1992)。因此,它可以通过简单的测量来确定,例如图像中的线方向或颜色分布(例如,盖林·独孤埃、伯纳德和奥利瓦,1998年),或存在于低水平的原物体的其他属性。

布局

场景结构的另一个重要方面是布局,即场景中物体的空间排列,不考虑视觉特性或语义特征(Hochberg,1968)。这个量至少来自一个异中心参照系,它随眼睛位置的变化而变化;因此,它可以用于指导眼球运动和注意力转移。

视觉系统似乎能在几秒钟内提取出至少一些布局信息,并能在短暂的时间间隔内保持这些信息(Sanocki&Epstein,1997;Simons,1996)。但所涉及的记忆不同于相干场的记忆——它保持空间位置而不是视觉特性,涉及整个场景(或至少一组对象),而不仅仅是单个对象。它似乎也不易波动,即使在没有注意的情况下也能持久(Chun&Nakayama,本期;Haber,1985)。重要的是要注意,即使布局是在非注意记忆中进行的,这并不意味着布局是非注意获得的。例如,它可能是从场景中提取出来的,并通过一系列注意力转移或眼球运动进入记忆。

场景模式

gist和布局信息的不变性不仅允许这些数量为其他操作提供相对稳定的上下文,还促进了场景约束的长期学习。场景的长期记忆似乎不仅涉及场景类别,还涉及相关的表征集合或场景图式(例如,Arbib,1990;Friedman,1979;Intraub,1997)。

gist和布局涉及有限生命周期的短期(或工作)表示,而场景模式是可能无限期持续的长期结构。这使得他们能够积累信息,因此他们的内容可以比调用他们的感知结构更加详细和复杂。例如,场景模式被认为包括场景中可能存在的对象清单,以及布局的各个方面,例如清单对象的相对位置(例如Mandler&Parker,1976)。

系统间的相互作用

在这里提出的三元体系结构中,场景的表示涉及三个不同系统的动态交互。如何进行?

在查看场景时,快速的低级过程提供了对查看者可见的特性的持续生成草图。Gist可能由其中的一个子集确定,随后的过程试图验证调用的模式(Antes&Penland,1981;Friedman,1979)。与模式一致的项不需要详细编码,因为验证可能涉及对预期特性的简单检查。换句话说,物体只需要被检测到,而不需要构建其结构的一致表示(Henderson,1992)。如果在图像中遇到意外的结构,更复杂的(注意)过程可以形成其结构的连贯表示,尝试确定其语义身份,或重新评估要点。同时,感知到的项目布局可以用来检查当前的解释,以及帮助引导对所请求对象的注意。

因此,这组交互提供了一种创建场景中所有对象的虚拟表示的方法。这也可能有助于解释为什么我们对所有对象都有同时出现的印象(通过虚拟表示),以及为什么我们对所有背景位置的细节都有同时出现的印象(可能通过不稳定的原型对象集)。

还值得指出的是,一些有趣的效应可以用这些相互作用的分解来解释。例如,如果集中注意力被一个物体的形成所占据,一个无人参与的刺激可以引起启动(Shapiro,Driver,Ward和Sorensen,1997),或者进入长期记忆(Chun和Jiang,1998),即使它没有被有意识地感知。这可以用注意力系统“锁定”特定物体来解释,看不见的信息沿着其他非注意力流传播。事实上,如果这些非注意力流中的一条能够检测(但不支持感知)某种变化,这就可以解释为什么观察者有时可以猜测变化已经发生,即使他们没有明确意识到(费尔南德斯·杜克和桑顿,本期)。另一个效应是“思维视觉”,观察者强烈感觉到某些东西正在改变,但没有伴随的视觉体验(Rensink,1998b)。在这里,这种变化可能是由一个非注意子系统检测到的,然后它会提醒注意系统。警报中传输的信息不一定很大,这可以解释为什么观察者对变化的内容或位置知之甚少。请注意,这种解释与盲视的解释类似,11盲视依赖于处理流的类似分离(Milner&Goodale,1995)。

总结

有人提出,一种动态的表征是我们对场景感知的基础。这一提议的一个组成部分是注意力的连贯性理论,该理论认为无人看管的结构是不稳定的,需要集中注意力来充分稳定它们,以允许对变化的感知。另一个组成部分是视觉利用虚拟表征的主张,虚拟表征是一种动态的表征形式,在这种表征形式中,注意力可以准确地在需要时提供对所需对象的详细、连贯的描述。提出了三元体系结构作为创建这种表示的一种可能方法。此体系结构使用稳定的表示和包含大量视觉细节的表示。但在任何时候都不会使用既稳定又包含大量细节的表示。

在这种观点下,人们对表现的印象既稳定又详细是由于注意力的仔细协调。在结果描述包含所需信息的范围内,我们作为观察者的印象将是一个非常详细的环境,准确地描述了那些最重要的方面。只有当低水平的瞬变被掩盖或由于不适当的高水平控制而被忽视时,注意力协调才会崩溃,导致虚拟表征的真实本质侵入我们的感知意识。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容