一、结论写在前面

论文研究表明，提高小语言模型的推理能力不仅是可能的，而且可以通过训练定制的合成数据来实现。

Orca 2模型通过实现各种推理技术和识别每个任务最有效的解决策略，达到了与规模更大的模型相当甚至更好的表现，特别是在零样本推理任务上。

尽管这些模型仍然存在其基础模型所固有的局限性和约束，但它们通过使用合成数据进行训练后展示出了有前景的改进潜力，特别是在推理能力、控制和安全性方面。

虽然Orca 2模型没有经过RLHF训练来确保安全性，但使用经过各种内容安全过滤器过滤的合成数据进行训练后调优(post-training )，这提供了进一步改善模型整体安全性的另一个路线。

论文在实现小语言模型全部潜力的道路上前进了一小步前进，特别是突出了教小模型进行推理的价值。它还突出了使用更强大模型创建定制和高质量合成数据，使用复杂的提示和潜在的多次模型调用来训练语言模型的潜力。

尽管前沿模型将继续展示非凡的能力，但论文相信研究建立更强大小模型的方法，将有助于为需要不同部署场景、效率与能力之间权衡的新应用程序铺平道路。

二、论文的简单介绍

2.1 小模型现状

型语言模型(LLMs)正在使人机之间的交互更加自然和复杂，增强了编码、网络搜索、聊天机器人、客户服务和内容创作等现有应用程序中的用户体验。 LLMs带来的这种转变也为创新型AI应用程序铺平了道路。

像GPT-4 和PaLM-2 等LLMs 不断扩大的参数量，出现了小模型(参数量少于约10亿)中看不到的涌现能力(emergent abilities)，最明显的是零样本(zero-shot)推理能力。这些能力包括回答复杂的问题，生成解释和解决多步问题，例如，美国医师执业考试上的那些问题，LLMs现在可以通过这些考试。这些尤其是在专家领域的能力，曾经被认为是AI难以达到的。

模仿学习(Imitation learning)已成为改进小语言模型的首选方法，其目标是复制更大、更强大的教师模型的输出。尽管这些模型可以生成符合其教师模型风格的内容，但它们的推理和理解能力往往不足。尽管在一定程度上是有效的，但模仿学习可能会限制较小模型的潜力，限制它们利用给定问题和模型容量的最佳解决策略。

2.2 论文的方案

在这项工作中，论文将继续探索如何教较小LM进行推理的问题。 Orca 2的目标是两方面的：

首先，论文旨在教会较小模型如何使用一套推理技术，例如逐步处理、回忆生成、回忆推理生成、提取生成和直接答案方法。

其次，论文期望帮助这些模型决定何时使用最有效的推理策略来解决手头的任务，使它们能够发挥最佳状态，而与其大小无关。

与Orca 1一样，论文利用更强大的LLM来展示各种任务中的推理策略。但是，在Orca 2中，推理策略是针对具体任务精心设计的，同时考虑到学生模型是否能够具有相同的行为。为了产生这种微妙的数据，向更强大的LLM呈现了精心设计的提示，旨在引发特定的战略行为，并产生更准确的结果，如图3所示。此外，在训练阶段，较小的模型只接触任务及其结果行为，而看不到触发此类行为的原始提示。这种提示擦除技术(Prompt Erasure)使Orca 2成为谨慎的推理器（Cautious Reasoner），因为它不仅学习如何执行特定的推理步骤，还在更高层面上学习如何策略性地解决特定任务。我们没有简单地模仿强大的LLM，而是将它们视为行为库，从中仔细选择最适合当前任务的行为。

2.3 论文的贡献

一些先前研究关于训练小模型评估方案上存在局限性。它们通常依赖少量任务或使用其他模型进行自动评估，方法是让模型比较两个系统的输出，提示如“给定系统1(参考)和系统2(目标)的响应，哪个更好?”。但是，已有工作已经证明这种方法有几个缺点。在这项工作中，论文提供了全面评估，将Orca 2与其他几个模型进行比较。论文使用了总共15个基准测试(覆盖约100个任务和超过36，000个唯一提示)。基准测试覆盖了各个方面的内容，包括语言理解、常识推理、多步推理、数学问题求解、阅读理解、总结、基础性、真实性和有害内容的生成与识别。

图1：在各种基准测试(0-shot)中比较Orca 2(7B & 13B参数)、LLaMA-2-Chat(13B & 70B参数)和WizardLM(13B & 70B参数)的结果，这些基准测试涵盖语言理解、常识推理、多步推理、数学问题解决等。Orca 2模型匹敌或超过了所有其他模型，包括参数量大5-10倍的模型。请注意，所有模型都是使用相应大小的相同LLaMA-2基础模型。

论文的结果表明，Orca 2明显优于类似规模的模型，甚至匹敌或超过5至10倍大模型的表现，尤其是在需要推理的任务上。这突显了赋予较小模型更好推理能力的潜力。