LIMA: Less Is More for Alignment

May 2023

https://arxiv.org/abs/2305.11206

[Meta AI, Carnegie Mellon University, University of Southern California, Tel Aviv University]

大型语言模型分两个阶段进行训练：（1）从原始文本进行无监督预训练，以学习通用表示；（2）大规模教学调整和强化学习，以更好地适应最终任务和用户偏好。我们通过训练LIMA来衡量这两个阶段的相对重要性，LIMA是一个65B参数的LLaMa语言模型，在没有任何强化学习或人类偏好建模的情况下，只对1000个精心策划的提示和响应进行了标准监督损失的微调。LIMA表现出了非常强大的性能，只从训练数据中的少数几个例子中学习了遵循特定的响应格式，包括从计划行程到推测替代历史的复杂查询。此外，该模型倾向于很好地推广到训练数据中没有出现的看不见的任务。在一项对照人体研究中，在43%的案例中，LIMA的反应与GPT-4相当或严格优选；与Bard相比，这一统计数据高达58%，与使用人类反馈训练的DaVinci003相比高达65%。总之，这些结果强烈表明，大型语言模型中的几乎所有知识都是在预训练过程中学习的，只有有限的指令调整数据对指示模型产生高质量的输出是必要的。

LIMA: Less Is More for Alignment

推荐阅读更多精彩内容