大语言模型与归纳推理的艺术

大语言模型（LLMs）的涌现能力随着规模扩大而不断提升；当规模增长时，LLMs将走向何方？从Ray Solomonoff的归纳理论和随机实现理论中获得的见解，可能帮助我们构想并指导规模扩展的极限。

生物学与技术的对比

机器学习历来从生物学中汲取灵感。但生物系统存在严格的个体发生和系统发生记忆限制：我们的突触无法记住所有经历，DNA也无法将积累的知识传给后代。此外，生物学强加了最小化推理延迟的进化偏见：在野外面对动物并需要决定谁是谁的猎物时，我们不能通过所有过去记忆来推理，以免决策被替我们做出。

换句话说，生物系统被迫采用归纳学习，使用过去的特定数据（或“训练集”）来设计处理任何未来数据的过程。归纳学习（或更简单地说，归纳）推理的成功依赖于所谓的归纳假设，即过去的表现可以保证未来的回报（称为“金融顾问”的灵长类物种就是从这种信念中进化出来的）。

技术没有生物系统的限制

技术没有生物系统的限制：没有硬内存限制（我们总是可以添加更多存储）和硬计算限制（我们可以启动更多计算机），至少直到我们达到宇宙极限。如果我们接受机器没有与生物学相同的限制，那么它们的最佳推理范式是什么？也就是说，给定一个训练集和一个测试查询，它们如何设计最佳答案？[1]

如果我们希望模型在不断发展的现实世界中运行，我们不应该假设存在一个单一分布，所有数据都从中抽取，从开始、现在到永远。

允许在推理时处理训练数据的推理称为转导推理或转导。转导要求我们记忆和推理，而不像归纳那样希望我们泛化和忘记。为了对任何未来假设分布执行最优推理，必须记住过去的数据，并且仅在呈现特定查询时，部署“推理”技能并访问内存以计算该查询的最佳可能答案。

归纳要求在训练期间忘记不重要的事情，假设训练集代表所有未来数据。但实际上，一个人无法知道什么数据在什么时候有用，所以如果负担得起，记忆是明智的，即使数据——像John Hopfield实验室墙上的文字——在那一刻没有意义。

从归纳学习到转导推理

均匀泛化界限可能看起来很强大，因为它们对任何分布都有效；但要让它们工作，只能有一个分布，过去和未来的数据都是从中独立采样的。套用统计学家Bruno de Finetti的话，这种分布在任何客观或物质意义上都不存在。它是一个抽象概念，是我们想象的产物。我们编造的东西来指导我们的直觉和分析。

归纳假设基本上是不可验证的：任何有限的训练数据都可以从无限多的分布中以相同的可能性抽取，所以即使有一个真正的分布，我们怎么知道是哪一个？一旦现在成为过去，我们就无法重复实验。归纳假设是一种信仰声明，均匀泛化界限是一种希望的表达，不完全在科学领域内。

不要误会：希望可以 payoff。未来往往确实 resemble 过去。但我们今天关心的许多数据生成机制，在商业、金融、气候和语言中，都随着时间的推移而演变。同一个词在今天可能承载与一个世纪前甚至十年前不同的含义。关键是，归纳假设是否成立无法提前知道。

所罗门推理

如果我们放弃泛化，拥抱记忆和推理呢？这是LLMs正在做的吗？如果是，它们将走向何方？最优转导推理的极限是什么？

答案由数学家Ray Solomonoff在1964年给出，现在有点 confusingly 称为所罗门归纳。我将称之为所罗门推理，它可以被认为是规模定律的极限，当我们允许内存、计算能力和时间增长到无穷大时。

所罗门推理对于所有可计算分布是最优的，相对于 universal prior 平均。Church-Turing 论题断言任何物理上可实现的机制都属于这一类。虽然在实践中不可行，因为它需要无限资源，但所罗门的算法相当简单：按长度递增的顺序执行所有程序，直到有一个程序设法一点一点地吐出到目前为止观察到的所有数据，如果它终止的话。

最优算法基本上是一个带有开关的查找表。没有洞察力，没有知识，甚至没有学习。如果连续两次呈现相同的查询，最优算法会重复相同的过程，从过去的经验中没有学到任何东西。

所罗门推理与神经网络非常不同，神经网络是通过比较高维空间中的梯度向量来训练的，数据被嵌入其中。但是，随着我们将LLMs扩展到越来越大的规模，它们的行为是否开始 resemble 所罗门推理？毕竟，LLMs已知会记忆，尽管不完美，并且它们可以执行通用计算，至少如果 augmented with a scratchpad。事实上，LLMs已经能够执行基本的转导推理，现在称为“上下文学习”——有点 confusingly，因为它不涉及学习：如果两次呈现相同的上下文，LLM会重复相同的过程，没有从经验中改进。

所以，如果LLMs开始执行所罗门推理，它们会变得“超级智能”吗？鉴于没有公认的智能定义，更不用说它的最高级了，许多人 tacitly 假设推理性能作为其代理：“更聪明”的模型（或学生）在测试中表现更好，无论是SAT、GRE、BAR，还是著名的IMO数学竞赛。分数越高，模型一定越“智能”！但绝对最好的是所罗门的算法，无论一个人的智能定义是什么，所罗门的算法都无法满足它：如果IMO错误地将每个问题打印两次，所罗门的算法会重新做同样的工作两次，这不完全是大多数人所说的“智能”行为。

作为一个类比，一个“归纳学生”是一个勤奋的学生，他学习教科书并完成所有家庭作业和练习题，然后参加考试。只要问题与练习题足够接近，归纳学生就表现良好。在偶尔的奇怪（或分布外，正如归纳信仰者会说的）问题上，归纳学生可能表现不佳。

相比之下，“转导学生”根本不学习，而是带着教科书参加考试。只有在读完第一个问题后，转导学生才翻阅书籍，找到组装答案所需的所有部分。原则上，学生可以一直重复这个练习到最后一个问题，在这个过程中什么也没学到。正如所罗门向我们展示的，如果一个人拥有无限的时间、内存和计算能力，就没有必要聪明。

我们是想要在基准考试中表现良好的模型，还是我们想要的“智能”是别的东西？幸运的是，归纳和转导推理并不相互排斥。事实上，它们的区别非常微妙，因为一个人可以将任何一个框架为另一个的特例，并且当数据独立且同分布时，两者一致。

重要的是，LLMs是归纳训练的转导推理引擎，因此可以支持两种形式的推理。[2] 它们能够通过归纳学习执行推理，就像任何训练过的分类器一样，类似于Daniel Kahneman的“系统1”行为——他的书《思考，快与慢》中的快速思考。但LLMs也能够进行基本形式的转导，如上下文学习和思维链，我们可以称之为系统2——慢思考——行为。我们中更 sophisticated 的人甚至教LLMs进行演绎——对其涌现能力的终极测试。

AI模型的推理能力随着规模有机提升

AI模型的推理能力随着规模有机提升——尽管在大多数任务上它们仍然不如最好的人类。但它们也通过使用形式验证工具如LEAN被积极培养，正如在某机构发生的那样。人们可以称这种范式为所罗门学习：拥抱记忆并培养推理，但不回避归纳。可能从过去经验中受益的简单任务可以归纳解决，节省时间和精力，但这样做需要“理解”和“洞察力”。

给定那种范式，问题是什么类别的模型最好地支持所罗门学习。

所罗门学习的架构

所罗门学习需要模型能够在推理时记忆和执行计算，除了执行普通归纳。因此，模型架构需要 eidetic（逐字）工作内存，它可能随时间 fade，以支持计算；但它们也需要长期内存，以便轻松检索遥远过去的事实（人类发明印刷术的目的）。

为了适应不断变化的条件，它们需要其长期内存与生成它们处理的数据的机制的变化同步衰减。进化为生物代理这样做，为了物种的利益而不是任何个体。Transformer，当前LLMs的主力，有 eidetic（逐字）内存“在上下文中”，但直到令牌滑出上下文。它们也有永久内存“在权重中”，但训练数据不能从权重中 eidetically 访问，并且没有长期适应。Eidetic 长期内存可以通过RAG（检索增强生成）访问，但在当前Transformer中，RAG没有集成到主要（自回归）推理循环中。

随机实现理论和输入相关状态空间模型

半个世纪前，随机实现理论解决了如何为下游决策或控制任务建模序列数据的问题。模型的“状态”被定义为过去数据的函数，该函数对未来是充分的，意思是，给定状态，一个人可以丢弃所有过去数据，并预测未来数据，就像数据被保留一样好。

平凡状态是数据本身。根据定义，最优状态支持最优预测器，即使预测误差不可预测。然后，通过构造，状态包含过去数据中的所有“信息”。在训练期间，LLMs的状态是它们的权重，所以 next-token 预测是训练它们的首选方法也就不足为奇了。在推理期间，基于Transformer的LLM的状态是令牌的滑动窗口，它是“deadbeat”，意思是它在有限步数内衰减到零，没有驱动输入。

通常，当我们在训练和推理期间观察越来越多数据时，状态必须同步增长。在1970年代，无界状态是不可想象的，所以关键问题是如何找到一个固定维度的状态，即使数据量增长到无穷大，它也是最优的。因此，随机实现理论专注于承认有限维状态的马尔可夫过程。

由于任何有限内存序列都可以建模为由白零均值高斯噪声驱动的线性模型的输出，注意力全部集中在线性状态空间模型（SSMs）上。虽然简单，但这种SSMs足以带我们上月球。今天，无界状态并非不可想象。尽管如此，LLM权重在训练后是固定的，上下文大小由硬件限制强加。所以我们需要更丰富的架构家族。

顺便说一句，我希望强调模型和系统之间的区别，模型是支持最优预测的任何状态空间实现（通常有无限多个），系统是生成数据的“真实”机制。系统是未知和不可知的；模型是有形的，完全在我们的控制之下。尽管作为工程师，我们被训练相信世界模型随着改进而收敛到“真实”系统，但这种立场——在认识论中称为“朴素现实主义”——在科学上是站不住脚的。[3]

为了强调系统和模型之间的二分法，1979年，Anders Lindqvist和Giorgio Picci推导了一个方程，四十年后，它成为扩散模型的核心。在耗散物理系统中，时间不能逆转，但在该系统的模型中可以，例如高斯SSM。模型中反向扩散的结构与正向扩散相同，这一事实在扩散模型用于图像生成时被利用。[4]

与 deadbeat Transformer不同，SSMs有无界内存，但它 fade，使它们与最优转导推理不兼容。同样在1970年代，已故的Roger Brockett引发了对输入相关状态空间模型的兴趣爆发，其中一些参数受输入影响，最简单的情况是当它们与状态（双）线性交互时。Art Krener表明，这种双线性SSMs可以近似任意复杂的非线性（光滑）模型。Alberto Isidori和同事将随机实现理论扩展到双线性模型，但仍然着眼于使状态尽可能小。

甚至30年后，在深度学习革命之前，当我们使用输入相关SSMs生成动态纹理视频时，我们仍然专注于保持状态维度尽可能小，受到20个状态足以动画和控制瀑布、火焰、烟雾、树叶、说话面孔和其他平稳过程的渲染的事实的鼓励。由于模型的可逆性，我们甚至可以使烟雾或蒸汽移动得更快、更慢或向后！

深度学习扭曲了奥卡姆剃刀，试图使训练状态（权重）的嵌入维度尽可能大，而不是尽可能小。维度只是“信息”的上限，归纳的关键是限制训练权重中的“信息”，而不是其维度。[5] 二十年后，我们通过将一层的（输入相关）预测残差馈送到下一层，将SSMs堆叠成神经架构。

一个突破来自Mamba，它表明硬件级的高效实现是关键。当Mamba被剥离时（正如我们最近关于支持转导推理的架构的论文附录E中所做的那样），它是一个双线性SSMs堆栈（Mamba开发人员称之为“选择性状态空间模型”），限制为非交互状态（对角动力学），因此可以在硬件中高效实现。

对角SSMs与Transformer不相交且互补。自回归（AR）Transformer有幂零动力学，意思是状态转移矩阵在没有外部输入的情况下在有限步数内变为零。Mamba有对角动力学，而幂零矩阵不能对角化。对角SSMs支持无限 fading 内存；AR Transformer支持有限 eidetic 内存，两者都不通用。相反，任何通用（双）线性系统都可以转换为所谓的规范形式，也是在1970年代推导的，它可以支持 eidetic 和 fading 内存。

遇见B’MOJO

B’MOJO是一个基于规范实现的架构家族，包括Transformer、类Mamba SSMs以及两者的任何混合组合。有组合多种选项，游戏的名字是找到那些足够通用以支持不同内存机制 yet 可以高效映射到特定硬件以扩展的选项。我们计划发布B’MOJO的基本版本，用于GPU硬件和某中心的Trainium硬件，以便它们可以轻松与现有Transformer、SSMs和混合架构进行比较。

墙上的文字

虽然“真实”系统的表示基本上难以捉摸，使John Hopfield实验室1992年墙上的文字可信，但构建模型实现是一项基于数据的具体练习。LLMs，其中“L”不是指自然语言，而是指在训练模型中大规模出现的内在语言，是归纳训练为最优预测器的随机实现，并被转用于（次优）转导推理和生成。如果训练数据隐含潜在逻辑结构，如视觉或听觉数据等感官数据，训练为最优预测器的模型被迫捕捉其统计结构。

因此，我们术语中的LLMs包括所谓的用视觉、听觉、嗅觉、触觉和其他感官数据训练的世界模型。模型 indifferent 于标记化数据是表达自然语言中的某些抽象概念还是有限精度中的物理测量过程。由此产生的LLMs可以表示概念和含义，包括物理概念如物理定律，并且原则上可以推理，尽管目前它们似乎主要是在构建 ever bigger 查找表。无论如何，作为随机动态模型，LLMs可以被控制，用因果干预探测，变得可观察，并用动力系统理论的工具研究。

模型是底层世界的抽象——不是它的表示，因为没有客观的“它”来重新呈现，而是它的实现，通过唯一客观实体即数据变得真实。合成数据对模型来说与物理测量过程产生的数据一样真实，将两者对齐是感知的本质，因此通常被称为受控幻觉。

虽然许多流行 discourse 贬低幻觉[6]为应避免的东西，但幻觉能力对于推理是必要的。问题不是如何避免幻觉，而是如何控制它们，这是对齐的过程。为决策和控制设计的架构可以帮助，并且动力系统和控制方面 decades 的工作可能提供见解——希望不需要诉诸神性，正如墙上的文字所暗示的那样。

脚注

[1] 注意“最佳”并不意味着“正确”。如果数据不足以识别正确结论，即使最佳答案也可能是错误的。

[2] 转导推理的归纳学习的最简单形式是转导微调，一种元学习形式：过去数据用于“元训练”一个模型，在推理时，用少量示例（“few shots”）微调以执行新任务。LLMs通过使用具有潜在逻辑结构的序列数据（不仅是自然语言，还有视频、音频和其他信号）来产生“内在语言”（我们称之为“Neuralese”），然后可以转用于转导推理，从而将这个程序推进一步。

[3] 引用Bertrand Russell：“我们都从‘朴素现实主义’开始，即事物就是它们看起来那样的学说。……观察者，当他自己似乎是在观察一块石头时，如果物理学是可信的，实际上是在观察石头对他自己的影响。因此，科学似乎与自己战争：当它最意味着客观时，它发现自己违背意愿陷入主观性。朴素现实主义导致物理学，而物理学，如果 true，表明朴素现实主义是 false。因此朴素现实主义，如果 true，是 false；因此它是 false。”甚至国际计量学词汇在其最新修订中也摒弃了“真值”的概念。

[4] 在介绍扩散模型用于图像生成的论文中，反向扩散方程被归因于Feller 1949年的工作。然而，今天使用形式的正向扩散直到1960年才被推导出来，所以反向扩散也没有。后来的参考文献将反向扩散方程归因于B. D. O. Anderson 1982年的论文，然而，该论文没有引入它，而是描述了它，基于Lindqvist和Picci 1979年的论文，在Anderson的工作中正确引用，并将其扩展到与今天扩散模型中使用的模型不同的更通用模型。因此，扩散模型中使用的反向扩散方程的正确参考文献是Lindqvist-Picci 1979。

[5] 我使用引号是因为为训练模型的权重定义信息涉及一些微妙之处，但可以做到。

[6] “幻觉”是由模型生成的数据，这些数据与训练集统计兼容（在训练模型下的高似然意义上），但“错误”，即 individually 与某些外部 oracle deemed “true”（“事实”或“公理”）的约束不一致。换句话说，幻觉是任何生成模型的产物。在数学或代码等形式化领域之外，没有客观“真理”，所以 oracle 被一个接受的知识库取代，这取决于应用。对于“常识”知识，基础通常是一个大型（或多或少）已验证事实的语料库，如WikiData。在形式化领域之外，包括法律，不能保证事实或“公理”相互兼容。