May 2023
https://arxiv.org/abs/2305.11206
[Meta AI, Carnegie Mellon University, University of Southern California, Tel Aviv University]
大型语言模型分两个阶段进行训练:(1)从原始文本进行无监督预训练,以学习通用表示;(2)大规模教学调整和强化学习,以更好地适应最终任务和用户偏好。我们通过训练LIMA来衡量这两个阶段的相对重要性,LIMA是一个65B参数的LLaMa语言模型,在没有任何强化学习或人类偏好建模的情况下,只对1000个精心策划的提示和响应进行了标准监督损失的微调。LIMA表现出了非常强大的性能,只从训练数据中的少数几个例子中学习了遵循特定的响应格式,包括从计划行程到推测替代历史的复杂查询。此外,该模型倾向于很好地推广到训练数据中没有出现的看不见的任务。在一项对照人体研究中,在43%的案例中,LIMA的反应与GPT-4相当或严格优选;与Bard相比,这一统计数据高达58%,与使用人类反馈训练的DaVinci003相比高达65%。总之,这些结果强烈表明,大型语言模型中的几乎所有知识都是在预训练过程中学习的,只有有限的指令调整数据对指示模型产生高质量的输出是必要的。