LLM智力考察 - MMLU

随着大语言模型(LLM)在各领域的广泛应用,如何科学评估其性能变得尤为重要。在这一系列文章中,我们将探讨10种常用的评估方法,旨在帮助读者更系统地了解这些方法的适用场景、优势与局限,为大家揭秘大家常听到的各种“模型第一”都是怎么来的。

这一篇,我们将给大家讲解的是MMLU(Massive Multitask Language Understanding)。

起源与目标

MMLU 是由 Dan Hendrycks 和一组研究人员在2020年的一篇开创性论文中首次提出的。这个基准测试的设计初衷是超越当时已有的评估方法,提供更全面、更具挑战性的模型评估工具。其目标是测试一个大型语言模型在零样本(zero-shot)或少样本(few-shot)情境下的表现,也就是在几乎没有针对特定测试主题的训练数据的情况下,评估模型的世界知识广度和深度,以及解决问题的能力。MMLU 的设计灵感可以看作是模拟一场综合性的大学水平考试。

工作原理

MMLU 包含15,908道多选题,涵盖57个不同的学科领域。这些学科被分为四大类别:

STEM(科学、技术、工程与数学):如物理、化学、计算机科学;人文学科:如历史、哲学;社会科学:如经济学、心理学;“其他”领域:如专业医学、法律、营养学。 这些问题不仅仅是简单的信息检索,更需要推理能力和知识的实际应用。例如,某些问题可能会描述一个法律情境,并要求模型选出最可能适用的法律原则。

为什么重要:优势与影响

MMLU 很快成为了评估大规模语言模型的黄金标准,主要由于以下几点:

知识广度:涵盖的主题极为广泛,防止模型仅在某些特定领域表现良好。它鼓励模型展示真正的“通才”能力。
挑战性基线:在 MMLU 刚推出时,即使是当时非常强大的 GPT-3,也仅取得 43.9% 的准确率。相比之下,随机猜测的基准是 25%,而人类专家的准确率则高达约 89.8%。
进步清晰:从 GPT-3 的 43% 到后续如 Google 的 Gemini 1.5 Pro 和 Anthropic 的 Claude 3 Opus 等模型接近 90% 的表现,MMLU 的得分增长清晰地反映了整个行业的进步。如今,达到 90% 的正确率已成为任何旗舰模型发布的基本门槛。

局限性与缺点

尽管 MMLU 在业内备受推崇,但它并非完美无缺。后续分析发现,大约 6.5% 的问题存在瑕疵,如措辞模糊或答案标注错误。为此,研究人员创建了一个名为 MMLU-Redux 的项目,对其中 5,700 道题目进行了重新标注和修订,提供了一个更可靠的评分基准。

此外,MMLU 的多选题形式虽然便于自动化评估,但无法有效测试模型的生成能力(如创意写作)或长篇推理能力。

当前状态

尽管当前的最先进模型(SOTA,state of the art)在 MMLU 上已经取得了近乎“满分”的表现,但 MMLU 仍是一个不可或缺的基础性基准测试。如今,突破 90%的准确率已被视为发布任何顶级模型的“入场券”。

小结

MMLU是一个旨在测试模型在零样本或少样本情境下的知识广度、深度和推理能力,类似于大学水平的综合考试。其覆盖广泛领域并具有挑战性,被视为行业评估的黄金标准。然而,其也存在题目瑕疵和无法测试生成能力的局限性。尽管如此,MMLU仍是衡量旗舰模型性能的重要基准,达到90%准确率已成为顶级模型发布的基本门槛。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容