9 分类条件和增强学习
9.1 简介
动物在相关奖励或惩罚的基础上,在特定刺激下学习适当行动的能力是行为心理学关注的焦点。该领域传统上分为古典(或巴甫洛夫)和工具性(或操作)条件反射。在经典条件作用中,强化物(即奖励或惩罚)是独立于动物所采取的任何行动来传递的。在工具性条件反射中,动物的动作决定提供什么增强。仅仅根据与刺激或行动相关的奖惩,来学习刺激或行动叫做强化学习。强化学习是最低限度的监督,因为动物没有明确地告诉他们在特定的情况下采取什么行动,但必须在他们得到的强化的基础上为他们自己解决这个问题。本章首先讨论了经典条件作用的各个方面以及为解释这些方面而发展的模型。我们首先讨论一个或多个刺激的不同配对,以表示或拒绝奖励,并提出一个简单的学习算法来总结结果。然后,我们提出了一种算法,称为时间差异学习,导致预测的应给奖励的存在和时间,在延迟接下来的刺激呈现。两个神经系统,小脑和中脑多巴胺系统,已经从调节的角度进行了特别研究。小脑已经被研究与眨眼调节相关,一种动物学习的方法只是在干扰的前闭上眼睛,例如空气的脉冲,这些信号是由线索发出的。中脑多巴胺能系统与奖赏学习有关。我们将重点放在后一个方面,还有一小部分关于条件反射的广泛行为数据。
有两大类工具性条件作用任务。在第一类中,我们用蜜蜂觅食的例子来说明,在采取行动后,会立即传递强化物。这使得学习相对容易。在第二类中,奖惩取决于一个完整的行为序列,并且部分或全部延迟到该序列完成为止。因此,学习顺序中每一步的适当动作必须基于未来的期望,而不是立即收到奖励。这使得学习变得更加困难。尽管古典条件作用和工具性条件作用之间存在差异,但是我们展示了如何使用我们讨论的古典条件作用的时间差异模型作为奖励延迟时工具性条件作用模型的核心。为了与关于强化学习的文献保持一致,在本章中,字母r用于表示奖励而不是放电率。此外,为了方便起见,我们考虑离散的动作,例如在两个备选方案之间的选择,而不是连续的动作范围。我们还考虑由多个离散事件组成的试验,并使用整数时间变量T = 0;1;2;:::在试验中指示步骤。因此,我们也使用离散权重更新规则(如我们在第8章中讨论的用于监督学习的规则),而不是用微分方程描述的学习规则。