GPT-3.5 (text-davinci-003)、ChatGPT、Claude 和 Bing Chat 等指令遵循模型现在被许多用户广泛使用,包括用于与工作相关的任务。然而,尽管它们越来越受欢迎,但这些模型仍然存在许多需要解决的缺陷。虚假信息、社会刻板印象和有毒语言是与这些模型相关的一些问题。
为了解决这些紧迫的问题,学术界需要更积极地参与。不幸的是,由于在功能上接近闭源模型(如 OpenAI 的 text-davinci-003)的模型的可用性有限,因此在学术界研究指令遵循模型一直具有挑战性。为了应对这些挑战,斯坦福大学的研究人员发布了他们关于一种名为 Alpaca 的指令跟随语言模型的发现。
Alpaca 从 Meta 的 LLaMA 7B 模型中进行了微调,并在使用 text-davinci-003 生成的 52K 指令跟随演示上进行了训练。研究人员指出,Alpaca 表现出许多类似于 OpenAI 的 text-davinci-003 的行为,但也非常小且易于重现。他们已经发布了训练配方和数据,并计划在未来发布模型权重。