LIMA: Less Is More for Alignment

May 2023

https://arxiv.org/abs/2305.11206

[Meta AI, Carnegie Mellon University, University of Southern California, Tel Aviv University]

大型语言模型分两个阶段进行训练:(1)从原始文本进行无监督预训练,以学习通用表示;(2)大规模教学调整和强化学习,以更好地适应最终任务和用户偏好。我们通过训练LIMA来衡量这两个阶段的相对重要性,LIMA是一个65B参数的LLaMa语言模型,在没有任何强化学习或人类偏好建模的情况下,只对1000个精心策划的提示和响应进行了标准监督损失的微调。LIMA表现出了非常强大的性能,只从训练数据中的少数几个例子中学习了遵循特定的响应格式,包括从计划行程到推测替代历史的复杂查询。此外,该模型倾向于很好地推广到训练数据中没有出现的看不见的任务。在一项对照人体研究中,在43%的案例中,LIMA的反应与GPT-4相当或严格优选;与Bard相比,这一统计数据高达58%,与使用人类反馈训练的DaVinci003相比高达65%。总之,这些结果强烈表明,大型语言模型中的几乎所有知识都是在预训练过程中学习的,只有有限的指令调整数据对指示模型产生高质量的输出是必要的。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容