用新型的神经形态设备建立起生物和人工神经网络的桥梁——综述Part2

Tang, J., Yuan, F., Shen, X., Wang, Z., Rao, M., He, Y., Li, X., Zhang, W., Li, Y., Gao, B., Qian, H., Bi, G., Song, S., Yang, J., Wu, H. (2019). Bridging Biological and Artificial Neural Networks with Emerging Neuromorphic Devices: Fundamentals, Progress, and Challenges. Advanced Materials, 1902761.

4.可塑性

第四节讨论了神经科学和大脑启发式计算的关键概念:可塑性。概述了突触可塑性，非突触可塑性，超可塑性，突触整合，灾难性遗忘，以及其电子实现（如果有）。

生物系统中的神经可塑性是指神经元或突触改变其特性的能力，通常依赖于神经活动，并被认为是大脑学习和记忆功能的基础。在人工计算中，可塑性通常由器件电导的变化来表示。

4.1 .突触和非突触可塑性

突触可塑性是突触性质改变的能力，最常见的是增强或减弱突触强度。它是神经可塑性研究最深入的形式，被认为是生物学学习和记忆中神经可塑性最突出的形式。

图8 不同类型神经可塑性 a）STSP的时程。b）LTP和LTD的示意图。短期的高频刺激会诱发LTP，而长时间的低频刺激则会诱发LTD。c）连线可塑性示意图。d）内在可塑性示意图。

此处说明了三种机制：i）EPSP扩增：可以通过调节树突离子通道来增强兴奋性突触后电位。这类似于增加的突触重量。 ii）降低峰值阈值：可以通过调节轴突初始段上的电压门控通道来降低触发动作电位的电压阈值，因此神经元更易于发射。 iii）静息电位去极化：通过调节电压门控通道可以提高膜静息电位，这也使尖峰阈值更容易达到。

短期突触可塑性（STSP）持续几分钟或更短。STSP对突触效能(突触前输入影响突触后输出的能力)的影响可以是增强或抑制。STSP让不同的突触充当信息传输的低通、高通或带通滤波器。STSP在电子突触中已被实现。

长期突触可塑性（LTSP）可以持续数小时或更长时间。持续增加的突触强度称为长时程增强（LTP），突触强度的持续下降被称为长时程抑制（LTD）。基本上模仿LTSP的大多数方案都是基于设备的非易失性开关特性。

连线可塑性是指可以在神经单元之间完全形成或消除连接（图8c）。计算模型中的结构学习类似于连接大脑中的可塑性。连线可塑性不是突触可塑性的延伸。连线可塑性扩展了大脑编码信息的能力，并被认为与多种学习形式相关(知觉学习、运动学习、空间学习等)。仅在计算算法中得到了广泛应用。

内在可塑性涉及通过调节电压依赖性离子通道来改变神经元兴奋性，并且可以被视为神经元输入输出功能的变化。内在可塑性是双向的。研究发现内在可塑性与LTP或LTD具有协同作用，并表现出稳态特性。从行为的角度来看，调节电子设备的阈值似乎是模仿神经元兴奋性调节的一种可能方法。

4.2 超可塑性和突触整合

突触可塑性不仅取决于当前的刺激，还取决于突触状态的历史。此外，突触可塑性与记忆的形成和维持密切相关。计算模型表明，通过快速和慢速级联隐藏变量的复杂相互作用可以解决保持旧记忆和编码新记忆的难题。

超可塑性是指一种神经元产生突触可塑性的能力受到其活动历史的调节的现象。它是“突触可塑性的可塑性”。在突触特异的可塑性中，突触的历史活动影响其自身的可塑性。另一方面，突触的可塑性也可能受到其邻近突触的历史活动的影响。Kim等人提出了一种二阶忆阻器器件，表现出类似Ca2 +的动力学特性，可编码时序信息并调节突触权重，还可以接受基于历史的响应，以呈现可塑性的调制，即极性和电导率变化率。

图9 突触整合和级联模型的例证。 a）突触整合示意图。 b）改变突触蛋白合成并改变膜电位的细胞内转导级联反应。c）突触标签和捕获假设的说明。 d）级联模型的图示。u1，u2，...是不同时标的双向链接变量。该公式描述了每个变量的动态。

突触整合也称为后期LTSP（L-LTSP），突触强度的变化在最初的诱导事件后数分钟至数小时内稳定下来，是记忆整合的第一步。它关系到如何保持STSP和早期LTSP（E-LTSP）以转移到LTSP，或者由于被动衰减，干扰或主动抑制而被遗忘。重复演示可以极大地增强突触的整合（图9a），尤其是分布式学习。突触整合的标准模型表明，突触蛋白合成的改变和膜电位的改变是通过激活细胞内转导级联反应实现的，从而导致基因转录和蛋白合成（图9b）。解释突触整合过程的一种著名理论是突触标记和捕获假设（图9c）。由于某些忆阻器的双重开关行为，可以获得挥发性和非易失性电导状态。两种切换行为之间的过渡与此处的突触整合非常相似。

突触可塑性在多个时间尺度上起作用，并受历史状态的影响。据此开发了级联模型，该模型具有不同时间尺度和双向连接的级联变量来表示过程（图9d）。最快的变量表示突触权重，而较慢的变量表示突触中信号传导，信号强度和调节分子的浓度。由于复杂的级联变量，该模型使突触具有很大的编码内存容量。它可以在一个统一的框架中解释超可塑性和记忆整合。研究人员已将此模型应用于人工神经网络中的灾难性遗忘。

5.学习和记忆的理论和原理

第五节介绍生物神经系统中学习和记忆的经典理论的机制、现象和相关的电子演示(如果有)。并讨论了生物逻辑学习和人工仿真之间的差距，试图指出神经系统中是否有一些重要的记忆和学习功能，但尚未用电子设备演示过。

5.1 .生物神经系统的学习和记忆理论

生物学习和深度学习规则之间的主要区别是局部性和整体性。理论研究一直在努力弥合这一差距，但成果甚少。

图10 不同的学习理论 a）赫布学习。相关的放电使两个神经元之间的突触更强。 b）SRDP的示意图。 c）STDP的示意图。 d）三种不同的稳态可塑性机制的示意图：i）突触缩放； ii）兴奋抑制比的变化； iii）滑动阈值。

赫布学习规则的简单描述是，突触效能的增加是由突触前细胞对突触后细胞的反复和持续激活（图10a）。该原理经常被概括为“一起放电的神经元连接在一起”。峰值速率相关的可塑性（SRDP）：赫布规则的数学模型最初是根据平均发射速率来制定的射速指的是每单位时间的平均AP数。SRDP是电子领域而不是神经科学领域用来描述这些规则的术语。它根据一定尖峰速率的尖峰列的仿真描述了忆阻器的电导变化（图10b）。STDP规则指出，当突触前活动进行到突触后活动时，突触的连接会增强。突触前和突触后活动的时间顺序相反时，持续数十毫秒的时间会减弱（图10c）。对大脑和物种的不同区域进行的许多研究都支持这种定时学习规则。

稳态可塑性是一种稳定特定平衡点周围神经元或神经回路活动的可塑性。与稳态可塑性对应的是赫布可塑性。尽管LTP和LTD的作用方向相反，但是仅靠赫布可塑性不能维持神经回路的稳态，因为经历LTP的突触更有可能激活突触后神经元，从而比LTD进行进一步的LTP。因此，需要稳态可塑性作为负反馈，以保持神经回路的正常激活水平。稳态可塑性通常在几天的时间尺度上起作用。已经提出了几种潜在的体内稳态可塑性机制（图10d）。

记忆印记是大脑中特定的变化，由经验形成并以静止状态储存，在适当的外部刺激和条件下可以被重新激活并发挥功能，从而导致记忆储存的恢复。赫布提出，记忆是与神经元群体一起储存在大脑中的，这种群体被称为赫布集合。利用突触可塑性的赫布规则，通过加强由特定刺激激活的神经元之间的联系，形成了赫布集合。印记的存在解释了记忆的持久性。

在更长的时间尺度上，记忆也可以从神经系统的一部分转移到另一部分。系统整合是一个缓慢动态过程，突触整合只需几分钟到几小时。系统整合是记忆的空间转移，而突触整合是时间转移。这种机制被深度思维借鉴，启发了构建人工智能系统方面的工作。

5.2 生物神经系统的记忆和学习原理

突触竞争是指突触竞争大脑中有限的资源。Miller等人提出了两种类型的竞争或规范化——归一化的乘法形式&归一化的减法形式。STDP规则表现出与减法归一化相似的属性。在人工神经网络文献中，已证明诸如权重衰减，权重归一化之类的方案对于加速网络学习至关重要。

中枢神经系统的另一个突出特性是它看起来非常嘈杂。大脑利用其收到的刺激对外界进行建模（通常是不确定的）。在数学中，有两种进行推理的方法：基于抽样的推理和基于优化的推理。 Markov Chain Monte Carlo是最著名的基于抽样的推理之一。学习也可以被视为抽样过程。突触抽样可以帮助网络达到全局最小值并更快地收敛。突触抽样理论可能是人类比计算机更好的学习能力的来源。

赫布学习指出，突触可塑性取决于突触前和突触后神经元的放电速率，因此该规则被认为是局部的。神经元系统中两个神经元之间的突触强度可能会受到系统中其他参数的影响和控制。控制可塑性的三种主要途径为：1）神经调节剂是一类化学分子，它结合树突上的受体并调节神经元的活性。神经调节剂可以扩散释放并影响和控制一定体积内的许多突触。2）局部回路的可塑性可由抑制性中间神经元控制。3）可塑性的控制也可以通过树突计算来实现。这种机制可能会提供最好的可塑性控制。

6 展望

尽管人工神经网络受到了生物神经系统的启发，但它们之间的差距仍然很大。下表简要总结了生物和人工神经系统的研究现状。

生物和人工神经系统的研究现状。

6.1 多样性

在生物系统中，有多种神经元协同工作。最重要的划分是划分为兴奋性和抑制性神经元，而在当前的人工神经网络中，神经元发出的兴奋性和抑制性突触混合在一起。

6.2 信息处理的时间协调与控制

大脑使用尖峰信号进行交流。这提供了使用复杂的时空代码和协调方案进行计算的机会。此外，大脑活动很大程度上取决于历史事件，而人工神经网络则更多地强调当前的输入。大脑不断对未来进行预测，这可能是其某些先进智能的基础。最大的差距之一是大脑使用复杂的控件来调节信息流和可塑性。

6.3 高级学习能力

尽管近年来深度学习取得了长足的进步，但生物系统的自动学习能力仍然在鲁棒性和灵活性方面无与伦比。

神经科学技术的最新进展已使我们能够观察和操纵一群编码记忆印记，印记细胞的神经元。这将对学习和记忆的研究带到了细胞群体和电路水平。此类存储器可能不像通常在计算机存储器中那样由白板随意形成，而是可以根据先天原理进行严格的管理和组织。

当前的深度学习算法通过学习大量标记数据来取得成功。但是生物神经系统能够从几个例子中学习，并且在没有明确指示的情况下就可以继续自动学习，同时在整个生命周期中执行功能，而不仅仅是在专门的时间。

用新型的神经形态设备建立起生物和人工神经网络的桥梁——综述Part2