2018 年，深度学习「三巨头」因其在这个领域的卓越贡献荣获图灵奖。在人们感慨人工智能迎来春天的同时，也有人为「LSTM 之父」Jürgen Schmidhuber 未能分享这份荣誉而感到遗憾。事实上，除了 LSTM 之外，深度神经网络、卷积神经网络、无监督学习、自监督学习、元学习、知识蒸馏、对抗生成网络等重要技术的诞生与 Jürgen 都有着千丝万缕的联系。

近日，Jürgen 亲自撰文介绍了自己从上世纪90年代起在深度学习领域所做出的巨大贡献。

0. 人工神经网络深度学习的研究背景

人类大脑拥有约 1,000 亿个神经元，平均每个神经元都会与其余的 10,000 个神经元相连。在这些神经元中，有一些是为其它神经元提供数据（声音、视觉、触觉、疼痛、饥饿）的输入神经元。另一些神经元则是控制肌肉的输出神经元。而大多数神经元则隐藏在输入和输出之间的处理过程中，这也正是我们进行思考的地方。显然，大脑是通过改变连接的强度或权重进行学习的，这样可以决定神经元之间互相影响的强度，而这种机制似乎也对人们一生中积累的经验进行了编码。

我们的人工神经网络（NN）的工作原理与上述人类的神经系统相类似，它能够比先前的各种方法更好地进行学习，从而完成语音识别、手写数字识别或视频识别，最小化损失、最大化受益，甚至自动驾驶汽车等任务。

大多数现代的商业应用都重点关注让神经网络能够模仿人类「老师」的监督学习。经过了多次试验，Seppo Linnainmaa 在 1970 年提出了一种基于梯度的计算方法，我们现在通常将其称为反向传播算法或自动微分的逆序模式，该算法被用来逐渐减弱某些神经网络连接，同时增强其它的连接，从而使神经网络与带有监督信号的「老师」的行为越来越相似。

如今，那些最为强大的神经网络往往具有很深的结构，也就是说，他们有许多层神经元或若干后续的计算阶段。然而，在 1980 年代，基于梯度的训练方法并不适用于深度神经网络，仅在浅层神经网络上有较好的表现。

这种「深度学习问题」在循环神经网络（RNN，于 1945 年首次被非正式地提出，于 1956 年被正式提出）上体现的最明显。循环神经网络与人类大脑相类似，但与限制更多的前馈神经网络（FNN）不同，RNN 具有反馈连接。这种结构使 RNN 成为了功能强大、通用性强，可以进行并行计算的计算模型，它能够处理任意长度的输入序列（例如，语音或视频）。RNN 基本上可以实现所有可以在你的笔记本电脑上运行的程序。如果我们想要构建一个通用人工智能系统，则其底层的计算基础必然是类似于 RNN 的结构，因为 FNN 从根本上存在不足。RNN 与 FNN 的关系，就好比通用计算机和专用计算器的关系。

尤其是，不同于 FNN，RNN 基本上可以处理任意深度的问题。然而，在 1980 年代，早期的 RNN 实际上并不能学习较深的问题。我希望克服这一缺点，实现基于 RNN 的「通用深度学习」。

1. 第一个基于无监督预训练的深度学习器（1991）

为了解决上述的「深度学习问题」，我首先想到了通过对一个层次化 RNN 的无监督预训练促进深度 RNN 中的监督学习（1991），从而实现了第一个「非常深的学习器」，我们将其称为「神经序列组块」（Neural Sequence Chunker），或称「神经历史压缩器」。每个更高层的 RNN 会使用预测性编码技术最小化下层 RNN 中的数据表征的描述长度（或负对数概率）。其中，预测性编码技术试图在给定先前的输入的情况下，预测接下来的数据流中的下一个输入，并且只在存在不可预测的数据时更新神经激活值，因此此时只存储未知的东西。换句话说，神经序列组块会学着压缩数据流，从而减缓「深度学习问题」，使其能够通过标准的反向传播方法求解。

尽管那时的计算机要比现在同等价位的计算机运算得慢一百万倍，但是截止到 1993 年，我的方法可以解决之前无法解决的、深度大于 1000 的「非常深的深度学习」（需要超过 1000 个后续的计算步骤，步骤越多则学习的深度越深）。在 1993 年，我们还发布了一个「连续」版本的神经历史压缩器。

据我所知，序列组块同时还是第一个由在不同（自组织的）时间尺度上运行的 RNN构成的系统（实际上，我还有一种方法，可以将所有这些 RNN 「蒸馏」到一个很深的、在单个时间尺度上运行的 RNN 中）。几年之后，其他的研究者也开始在多时间尺度 RNN 的研究领域发表相关工作。

在这项工作发表十多年后，一种针对限制更强的前馈神经网络的类似方法被提出，这种方法通过堆叠的前馈神经网络的无监督预训练使监督训练的性能得到了提升，该方法被称为深度置信网络（DBN）。在这篇于 2006 年发表的论文中，作者的证明与我在 1990 年代初期为我的堆叠式 RNN 所使用的证明几乎如出一辙：每个更高的层试图缩短下层中数据表征的描述长度（或负对数概率）。

在上述的基于无监督预训练的深度学习器被提出后不久，「深度学习问题」也通过我们的纯监督 LSTM 被解决了。后来，在 2006 到 2011 年间，我的实验室又推动了一次非常相似的从无监督预训练到纯监督学习的转变。在「奇迹之年」过去 20 年后，这一次，通用性较低的前馈神经网络（FNN）催生了在癌症检测和许多其它问题上的革命性应用，而不是循环神经网络（RNN）。

2.对一个网络进行压缩/蒸馏，用于一个网络（1991）

在我们上面提到的关于神经历史压缩器的论文中，还介绍了一种将网络的层次结构（较高层网络相较于较低层网络，往往在慢得多的自组织时间尺度上运行）压缩到一个深度 RNN 中，学着解决非常深的网络的学习问题。它们讨论了「有意识」的组块和「下意识」的自动化，介绍了将一个神经网络的知识迁移到另一个神经网络上的通用原则。

假设有一个「老师」神经网络和一个「学生」神经网络，「老师」神经网络已经学会了对在给定其它数据的情况下，预测数据（的条件期望）。那么我们可以通过训练「学生」神经网络模仿「老师」神经网络的行为，将「老师」神经网络的知识压缩到一个「学生」神经网络中（同时重新训练学生神经网络去完成之前学过的技能，从而避免它遗忘这些技能）。

我将这种操作称作将一个网络的行为「折叠」或「压缩」到另一个网络中。如今，这种方法被广泛使用，有的研究者（例如，Hinton）也将它称为将「老师」网络的行为「蒸馏」或「克隆」到一个「学生」网络中。

3. 根本性的深度学习问题（梯度弥散/爆炸，1991）

我们指出深度学习是很困难的。但是为什么它很困难呢？我喜欢将其中的一个主要原因称为「根本性的深度学习问题」，而我的第一个学生 Sepp Hochreiter 于 1991 年在他的毕业论文中提出了这个问题，并且对其进行了分析。

作为这篇论文的一部分，Sepp 实现了上面介绍的「神经历史压缩器」和其它基于 RNN 的系统。除此之外，他还做了更多的工作——他的工作正式说明了，深度神经网络受困于如今非常著名的「梯度弥散」或「梯度爆炸」问题：在典型的深度网络或循环网络中，反向传播的误差信号要么迅速衰减，要么增长得超出界限。在这两种情况下，学习都会失败。这样的分析催生了如今的 LSTM 的基本原理。

4.长短时记忆网络（LSTM）：有监督的深度学习

长短时记忆虚幻神经网络（LSTM）克服了 Sepp 在其 1991 年发表的毕业论文中提出的根本性的深度学习问题。我认为这是机器学习历史上最重要的论文之一。它还通过我们在 1995 年发布的技术报告中所称的 LSTM 的基本原理（例如，恒定误差流）为解决根本性的深度学习问题提供了重要的思路。这催生了如下所述的大量后续工作。

明年，我们将庆祝 LSTM 首次未能通过同行评审的 25 周年。1997年，在经过了主要的同行评审出版物（现在是「Neural Computation」期刊历史上引用量最多的文章）发表之后，LSTM 模型和它的训练过程都得到了进一步的改进，这些工作由瑞士人工智能实验室「IDSIA」的瑞士 LSTM 基金支撑，我后来的学生 Felix Gers、Alex Graves 等人参与到了这些工作中。

其中一个具有里程碑意义的工作是：带有遗忘门的「vanilla LSTM」架构，这是1999年到 2000 年间被提出的 LSTM 变体，直到现在仍然被广泛使用（例如，在谷歌的 Tensorflow 中）。LSTM 的遗忘门实际上是一种端到端可微的快速权值控制器，我们在 1991 年也提出了这种结构。

Alex 是我们首次成功地将 LSTM 应用于语音领域的工作的第一作者。2005 年，我们发布了第一个具有完全基于时间的反向传播功能的 LSTM 和双向 LSTM 发 [LSTM3]（现在被广泛使用）。2006 年，另一个重要的里程碑是：用于同时对齐和序列识别的训练方法「连接时序分类」（简称 CTC）。自 2007 年以来，CTC 成为基于 LSTM 的语音识别的必要技术。例如，在 2015 年，「CTC-LSTM」的组合显著提升了谷歌语音识别系统的性能。

在 2000 年代初期，我们说明了 LSTM 如何学习传统模型（如隐马尔可夫模型）无法学习的语言。过了一段时间，这份工作才被理解；但到了 2016~2017 年，谷歌翻译和 Facebook 翻译均基于两个连接的 LSTM 被提出，其中一个 LSTM 被用于输入文本，另一个被用于输出翻译，这种模型的性能比之前的模型要好得多。

2009 年，我的博士学生 Justin Bayer 作为第一作者完成了一个自动设计类似于 LSTM 的架构的系统，该系统在某些应用上的性能超过了「vanilla LSTM」。2017 年，谷歌开始使用类似的「神经网络架构搜索」（NAS）技术。

自 2006 年起，我们一直与软件公司（例如，LifeWare）通力合作，大大提升了首写字母识别系统的能力。2009 年，在 Alex 的努力下，利用「连接时序分类」（CTC）技术训练的 LSTM 模型成为了首次在国际竞赛（三个 ICDAR 2009 举办的联通首写字母识别大赛（法文、波斯文、阿拉伯文））中夺冠的 RNN 模型。这极大地吸引了工业界的兴趣。

不久之后，LSTM 便被广泛应用于涉及包括语言、语音、视频在内的序列数据的一切任务。截至 2017年，人们基于 LSTM 模型构建了Facebook 的机器翻译系统（每周需要完成超过300 亿份翻译任务），超过 10 亿台 iPhone 上运行的苹果的「Quicktype」智能输入法，亚马逊的 Alexa 语音助手，谷歌的语音识别（自 2015 年起内置于安卓设备）、图像字幕生成、机器翻译、自动邮件回复等系统。美国的「商业周刊」将 LSTM 成为「商业化程度最高的人工智能研究成果」。

到 2016 年为止，谷歌数据中心超过四分之一的算力都被用于 LSTM（相比之下，只有 5% 被用于另一种名为「卷积神经网络」的流行的深度学习技术——详见第 19 章）。谷歌 2019 年发布的新的设备内置的语音识别（现阶段内置于你的手机上，而不是部署在服务器上）仍然是基于 LSTM 模型设计的。

通过我的学生 Rupesh Kumar Srivastava 和 Klaus Greff 的工作，LSTM 的原理也催生了我们在 2015 年 5 月提出的「Highway」神经网络，这是第一个具有数百层非常深的 FNN 结构的网络。微软提出的广为人知的 ResNet（ImageNet 2015 竞赛的冠军方案）就是 Highway 神经网络的一种特例。然而，早期的 Highway 网络就可以在 ImageNet 上取得与 ResNet 大致相当的性能。Highway 层还常常被用于自然语言处理领域，而此时更为简单的残差层则性能较差。

我们还通过没有「老师」监督信息的强化学习（RL）技术训练 LSTM 模型（例如，我的博士后 Bram Bakker 于 2002 年发表的工作 [LSTM-RL]）。我们还通过神经演化来训练 LSTM，例如我的博士生 Daan Wierstra 于 2005 年发表的工作 [LSTM12]，Daan 后来成为了 DeepMind 公司的 1 号员工，而 DeepMind 的联合创始人正是我实验室中的另一名博士生 Shane Legg（Shane 和 Dann 是 DeepMind 公司里最早发表人工智能论文的计算机科学博士）。

强化学习与 LSTM 的结合具有重要的意义。例如， 2019 年，DeepMind 在「星际争霸」游戏（该游戏在很多方面都要比国际象棋和围棋更加困难）中击败了职业玩家，而它们使用的正式一种名为「Alphastar」的算法，该算法的决策中枢拥有通过强化学习训练的深度 LSTM 核心。OpenAI 的「Dactyl」仿人机械手也采用了通过强化学习训练的 LSTM 核心，它能够学着在没有「老师」监督信息的情况下，控制灵巧的机器人手，同时「OpenAI Five」也于 2018 年通过学习在 DOTA2 游戏中成功击败了人类职业玩家。

上面提到的这一切成果的重要基础都是在 1991 年奠定的。后来，在慕尼黑工业大学和（当时还是私人的）瑞士 Dalle Molle 人工智能研究所（IDSIA）的基础基金以及我在 1990 年代和 2000 年代早期的「神经网络寒冬」中从瑞士、德国、欧盟获得的公共基金的资助下，我的团队还研发出了「LSTM&CTC」等成果，试图在几乎没有人对神经网络感兴趣的年代保持这一领域的活力。

在此，我要特别鸣谢 Kurt Bauknecht、Leslie Kaelbling、Ron Wiliams 以及 Ray Solomonoff 等教授，他们对我提交的基金申请的积极评价在很大程度上帮助我自从 1990 年代以来获得了来自 SNF 的资金支持。

5. 通过对抗生成神经网络实现人工好奇心（1990）

当人类与自己身处的世界交互时，他们会学着预测自己行为的后果。人们有很强的好奇心，会通过设计实验得出新的数据，并且可以从中学到更多知识。1990 年，为了构建具有好奇心的人工智能体，我提出了一种新型的主动无监督学习（或自监督学习）算法。该方法以一个极小极大博弈为基础，其中一个神经网络最小化另一个神经网络最大化的目标函数。现在，我把这种两个无监督的对抗性神经网络之间的博弈称为对抗性好奇心，以区别于我们后来自从 1991 年提出的人工好奇心。

然而，对抗性好奇心的工作原理如何呢？我们不妨将第一个神经网络成为控制器 C，C 以一定概率生成可能对某个环境产生影响的输出。第二个神经网络被称为世界模型 M，M 可以预测环境对于 C 的输出做出的反应，其使用梯度下降法最小化其误差，从而逐渐成为更好的预测器。然而，在一个「零和博弈」中，C 试图找到的是使得 M 的误差最大的输出。因此，M 的损失就是 C 的增益。

也就是说，C 的目的是生成新的输出或者实验来产生仍然能使 M 感到新奇的数据，直到生成的数据对于 M 来说十分熟悉、最终变得「无聊」。

因此，在 1990 年，我们已经拥有了无监督（或自监督）的同时满足「生成式」和「对抗性」（这里我们采用很久以后在 2014 年的中出现的术语）两大特征的神经网络，它们生成能够产生新数据的实验输出，这不仅仅适用于静态的模式，同时也可以用于模式的序列，甚至是通用场景下的强化学习。

当下火热的对抗生成网络（GAN）是对抗性好奇心的一种应用，其中环境仅仅返回 C 目前的输出是否属于一个给定的集合。

此外，请注意：对抗性好奇心以及对抗可预测性最小化（详见第七章）是密切相关的概念。而它们与早期的对抗性机器学习问题的设定又很不一样，早期的对抗性机器学习既不涉及无监督神经网络，也不涉及数据建模，而且也没有使用梯度下降方法。

6. 通过最大化学习进度的神经网络实现人工好奇心（1990）

最近，有许多综述文章对关于 1990 年提出的对抗性好奇心的改进进行了总结。在这里，我将重点介绍1991年对对抗性好奇心的第一个重要改进。

在这份工作中，AC1990 的世界模型 M 的误差是控制器 C 的奖励（需要最大化）。这在许多确定性的环境中是一种非常好的策略。然而，在随机化的环境中，这种策略则可能失效。C 可能会学着重点关注 M 总是由于随机性或由于其计算限制而得到高预测误差的情况。例如，一个由 C 控制的智能体可能会面对一个播放着极其难以预测的白噪声的电视屏幕而束手无策。

因此，正如我们在 1991 年所指出的，在随机环境中，C 的奖励不应该是 M 的误差，而应该是 M 的误差在后续训练迭代过程中的一阶导数的近似，即 M 获得的改进。因此，尽管面对上述充满噪声的电视屏幕会导致很高的误差，但 C 也不会在陷入这种困境时获得奖励。完全可预测和根本不可预测的情况都会使好奇心消失。这种思路催生了许多人工智能科学家和艺术家的后续工作。

7.用于无监督数据建模的对抗性网络（1991）

在我 1990 年发表首篇关于对抗生成网络的工作后不久，我在科罗拉多大学博尔德分校做博士后时，又提出了一种无监督对抗性极小极大值原理的变体。神经网络最重要的任务之一就是学习图像等给定数据的统计量。

为了实现这一目标，我再次在一个极小极大博弈中使用了梯度下降 / 上升的原理，其中一个神经网络将最小化另一个神经网络最大化的目标函数。这种两个无监督对抗性神经网络之间的对抗被称为可预测性最小化 (PM)。与后来的 [GAN] 不同，PM 是一个纯粹的极大极小博弈，例如 [PM2] 中的等式 2。

第一个关于 PM 的小型实验是在大约 30 年前进行的，当时其计算成本大约是现在的 100 万倍。5 年后，当计算成本降低了 10 倍时，我们得以说明，应用于图像的半线性 PM 变体会自动生成在神经科学领域广为人知的特征检测器（例如，从中心到周围的检测器、从周围到中心的检测器，以及方向敏感的棒状检测器）。

8.端到端的可微「快速权值」：能学着对神经网络进行编程的网络（1991）

一个典型的神经网络拥有比神经元更多的连接。在传统的神经网络中，神经元的激活值变化较快，而连接权值变化则较慢。也就是说，大量的权重无法实现短期记忆或临时变量，只有少数神经元的激活值可以做到。具有快速变化的「快速权值」的非传统神经网络则克服了这一局限性。

神经网络的动态连接或快速权值是由 Christoph v. d. Malsburg 于 1981 年提出的，其他学者对此进行了更深入的研究。然而，这些作者并没有采用端到端可微的系统，通过梯度下降学习来迅速操作「快速权重」的存储。我在 1991 年发表了下面这样的系统，其中慢速神经网络学着去控制独立的快速神经网络的权值。也就是说，我将存储和控制像在传统计算机中那样分开，但是，是以完全的神经方式（而不是以混合方式）做到这一点。这种思路催生了许多后续的工作，下面我将列举其中的一些。

一年之后，我提出了基于梯度下降的、通过二维张量或外积更新实现的对快速权值的主动控制。我们的动机是，在端到端可微控制下获得比同样大小的标准 RNN 更多的可能的临时变量：从 O（H）变成O（H^2），其中 H 为隐藏单元的数量。25 年后，其他研究者也采用了这种方法。论文也明确地讨论了对端到端可微网络中「内部注意力关注点」（Internal Spotlights of Attention）的学习问题。

我也曾说明了「快速权值」可以如何被用于元学习或「Learning to Learn」，这也是我自 1987 年以后的一个主要的研究课题。在 1992 年后的参考文献中，慢速 RNN 和快速 RNN 是相同的：网络中每个连接的初始权值都是由梯度下降法训练的，但是在一个迭代周期中，每个连接都可以由网络本身编址、阅读、并修改（通过 O（log^n）个特殊的输出单元，其中 n 是连接的数目）。

而连接的权值可能迅速变化，从某种意义上说，网络具有了「自我参照」效应（认知心理学概念，指记忆材料与自我联系时记忆效果优于其它编码条件），这是由于理论上它可以学着运行任意可计算的权值变化算法或学习算法（作用于该网络的所有权值）。这催生了 1990 年代和 2000 年代的许多后续工作。

不使用「老师」监督信号的深度强化学习（RL）也可以从快速权值中受益（即使系统的动力不可微）。2005 年，我之前的博士后 Faustino Gomez （现为 NNAISENSE 的 CEO）也说明了这一点，而那时人们负担得起的电脑的运行速度相较于 1990 年代已经提升了 1000 倍。

此外，据我所知，我们同年在深度强化学习领域所做的相关工作（但是没有使用快速权值）是第一份在标题中包含了「Learn deep」词组的机器学习论文（2005 年，不久之后许多人开始讨论「深度学习」）。

在过去的几十年中，我们发表了大量其它的方法来学习如何通过非常紧凑的代码，快速生成大型神经网络的大量的权值。在此，我们利用了「成功的大型神经网络的柯尔莫哥洛夫复杂性或算法的信息量实际上可能非常小」这一规律。

值得一提的是，在 2013 年 7 月，「压缩网络搜索」（Compressed Network Search）成为了第一个在没有任何无监督预训练（与第一章不同）的情况下，使用强化学习技术成功地直接根据高维感知数据（视频）学会控制策略的深度学习模型。不久之后，DeepMind 也开发出了一个用于高维感知输入的深度强化学习模型。

现在，最著名的基于快速权值的端到端可微神经网络实际上是我们 2000 年提出的 vanilla LSTM 网络，它的遗忘门可以学着控制内部 LSTM 神经元的自循环连接的快速权值。今天，所有主要的 IT 公司都大量使用 vanilla LSTM[DL4]。同样，这个模型的起源可以追溯到 1991 年。

9. 通过神经网络学习顺序注意力机制（1990）

与传统的神经网络不同，人类使用连续的目光移动和选择性注意力来检测和识别模式。这可能比传统 FNN 高度并行的方法有效得多。这正是我们在 30 年前（1990 年及之前）提出顺序注意力学习神经网络的原因。不久之后，我还明确地提出了在 RNN 中对「内部注意力关注点」的学习。

因此，当时我们已经提出了现在非常常用的两种类型的神经顺序注意力机制：

（1）（在潜在空间中）通过神经网络中的乘法单元实现的端到端可微的「软」注意力；

（2）（在观测空间中）实现的强化学习（RL）环境中的「硬」注意力机制。

这催生了许多后续的工作。今天，许多人都在使用带有顺序注意力学习机制的神经网络。

10. 分层强化学习（1990）

传统的不具有「老师」的强化学习（RL）不能层次化地将问题分解为更容易解决的子问题。正是我在 1990 年提出分层强化学习（HRL）的原因，HRL 使用基于神经网络的端到端可微分的子目标生成器，以及学着生成子目标序列的循环神经网络。强化学习系统获得形如（start，goal）的额外输入。有一个评价器神经网络会学着预测从起始状态到目标状态的奖励/开销。基于 RNN 的子目标生成器也可以获取（start，goal），并使用评价器神经网络的副本通过梯度下降来学习成本最低的中间子目标序列。强化学习系统试图使用这样的子目标序列来实现最终目标。

11. 通过循环神经世界模型规划并进行强化学习（1990）

1990 年，我提出了基于两个 RNN 的组合（控制器 C 和世界模型 M）的强化学习和规划。M 学着去预测 C 行为的后果。C 则学着使用 M 提前几个时间步进行规划，从而选择最大化预测累积奖励的动作序列。

12. 将目标定义命令作为额外的神经网络输入（1990）

在现在的强化学习神经网络中，有一个被广泛使用的概念：用额外的目标定义输入模式来编码各类任务，这样一来神经网络就知道下一步该执行哪个任务。我们在 1990 年的许多工作中提到了这一概念。我们使用一个强化学习神经控制器学着通过一系列的「扫视」（Saccade）操作去控制任务的「凹轨迹」（Fovea），从而找到视觉场景下的特定目标，因此可以学习到顺序注意力。

我们通过特殊的不变的「目标输入向量」将用户定义的目标输入给系统，而系统通过「凹轨迹移动」（Fovea-Shifting）来形成其视觉输入流。

具有端到端可微字目标生成器的分层强化学习（HRL）也使用了一个具有形如（start，goal）的任务定义输入的神经网络，学着预测从起始状态到目标状态的成本。（25 年后，我之前的学生 Tom Schauls 在 DeepMind 提出了「通用值函数近似器」）。

13. 作为神经网络输入/通用值函数的高维奖励信号（1990）

传统的强化学习是基于一维奖励信号的。然而，人类有数百万种作用于不同种类刺激的信息传感器。据我所知，参考文献是第一篇关于具有多维、向量值的损失和奖励信号的强化学习的论文，这些信号从许多不同的感知渠道传入，我们将预测所有这些传感器接受信号的累计值，而不仅仅是单个标量的整体奖励，这与之后的通用值函数（GVF）相类似。不同于之前的自适应评价（adaptive critics），我们 1990 年发表的这篇论文提出的学习机制是多维循环的。

14. 确定性策略梯度（1990）

在我 1990 年发表的论文的「Augmenting the Algorithm by Temporal Difference Methods」一章中，我们也结合了用于预测累积奖励的基于动态规划的时间差分方法 [TD] 以及基于梯度的世界预测模型，从而计算单个控制网络的权值变化。
25 年后，DeepMind 提出了该方法的一种变体「确定性策略梯度算法」（Deterministic Policy Gradient algorithm，DPG）。

15. 用网络调整网络/合成梯度（1990）

1990 年，我提出了各种学着调整其它神经网络的神经网络。在这里，我将重点讨论「循环神经网络中的局部监督学习方法」（An Approach to Local Supervised Learning in Recurrent Networks）。待最小化的全局误差度量是循环神经网络的输出单元在一段时间内接收到的所有误差的总和。在传统的基于时间的反向传播算法中，每个单元都需要一个栈来记住过去的激活值，这些激活值被用于计算误差传播阶段权值变化的贡献。

我没有让算法使用栈式的无限存储容量，而是引入了第二种自适应神经网络，该网络学着将循环神经网络的状态与相应的误差向量相关联。这些局部估计的误差梯度（并非真实梯度）则会被用于调整循环神经网络。

不同于标准的反向传播，该方法在空间和时间上都是局部的 [BB1][NAN1]。25 年后，DeepMind 将这种技术称为「合成梯度」(Synthetic Gradients)[NAN5]。

16. 用于在线循环神经网络的时间复杂度为 O(n3) 的梯度计算

我们最初在 1987 年发表的用于完全循环连续运行的网络的固定大小的存储学习算法 [ROB] ，在每一个时间步需要 O(n^4) 的计算复杂度，其中 n 是非输入单元的数目。我提出了一种方法来计算完全相同的梯度，它需要固定大小的与之前的算法同阶的存储空间。但是，每个时间步的平均时间复杂度只有 O(n^3)。然而，这项工作并非没有意义，因为伟大的循环神经网络研究的先驱 Ron Williams 首先采用了这种方法！

此外，1987 年，当我发表我当时认为是首篇关于遗传编程（GP，即自动演化的计算机程序）的文论文时，也犯下了类似的错误，直到后来我才发现 Nichael Cramer 已经于 1985 年发表了 GP 算法（而且在 1980 年， Stephen F. Smith 已经出了一种相关的方法，作为一个更大的系统的一部分）。

自那以后，我一直尽我所能做到公正和诚信。至少，我们 1987 年的论文似乎是第一篇将 GP 用于带有循环结构以及可变大小的代码的论文，也是首次关于在逻辑编程语言中实现 GP。

17. 深度神经「热交换器」（1990）

「神经热交换器」（NHE）是一种用于深度多层神经网络的监督式学习方法，受启发于物理意义上的热交换器。输入「加热」会经过许多连续层的转换，而目标则从深层管道的另一端进入并且进行「冷却」。与反向传播不同，该方法完全是局部的，使其不需要进行并行计算也可以较快运行。

自 1990 年 [NHE] 发表以来，我不定期地在各大学的演讲中会提到该方法，它的与亥姆霍兹机 (Helmholtz Machine) 关系密切。同样，该方法的实验是由我杰出的学生 Sepp Hochreiter 完成的。

点评

Jürgen Schmidhuber 绝对是人工智能深度学习的先驱和前辈，一个大牛。问题是，这位前辈
对于同行与后辈的苛求：不能因为你的天才，将大部分的研究可能性都有涉猎，而让同行、后辈无路可走。另一方面，即便同一个思想，出发点和细节不一样，结果会完全不一样。对于图灵奖，我认为这位前辈是绝对有资格的，祝好运！

参考：https://www.leiphone.com/news/201911/Nkc6JZ0m0ipcG01V.html

LSTM之父的深度学习History