LLM智力考察 - MMLU

随着大语言模型（LLM）在各领域的广泛应用，如何科学评估其性能变得尤为重要。在这一系列文章中，我们将探讨10种常用的评估方法，旨在帮助读者更系统地了解这些方法的适用场景、优势与局限，为大家揭秘大家常听到的各种“模型第一”都是怎么来的。

这一篇，我们将给大家讲解的是MMLU（Massive Multitask Language Understanding）。

起源与目标

MMLU 是由 Dan Hendrycks 和一组研究人员在2020年的一篇开创性论文中首次提出的。这个基准测试的设计初衷是超越当时已有的评估方法，提供更全面、更具挑战性的模型评估工具。其目标是测试一个大型语言模型在零样本（zero-shot）或少样本（few-shot）情境下的表现，也就是在几乎没有针对特定测试主题的训练数据的情况下，评估模型的世界知识广度和深度，以及解决问题的能力。MMLU 的设计灵感可以看作是模拟一场综合性的大学水平考试。

工作原理

MMLU 包含15,908道多选题，涵盖57个不同的学科领域。这些学科被分为四大类别：

STEM（科学、技术、工程与数学）：如物理、化学、计算机科学；人文学科：如历史、哲学；社会科学：如经济学、心理学；“其他”领域：如专业医学、法律、营养学。这些问题不仅仅是简单的信息检索，更需要推理能力和知识的实际应用。例如，某些问题可能会描述一个法律情境，并要求模型选出最可能适用的法律原则。

为什么重要：优势与影响

MMLU 很快成为了评估大规模语言模型的黄金标准，主要由于以下几点：

知识广度：涵盖的主题极为广泛，防止模型仅在某些特定领域表现良好。它鼓励模型展示真正的“通才”能力。
挑战性基线：在 MMLU 刚推出时，即使是当时非常强大的 GPT-3，也仅取得 43.9% 的准确率。相比之下，随机猜测的基准是 25%，而人类专家的准确率则高达约 89.8%。
进步清晰：从 GPT-3 的 43% 到后续如 Google 的 Gemini 1.5 Pro 和 Anthropic 的 Claude 3 Opus 等模型接近 90% 的表现，MMLU 的得分增长清晰地反映了整个行业的进步。如今，达到 90% 的正确率已成为任何旗舰模型发布的基本门槛。

局限性与缺点

尽管 MMLU 在业内备受推崇，但它并非完美无缺。后续分析发现，大约 6.5% 的问题存在瑕疵，如措辞模糊或答案标注错误。为此，研究人员创建了一个名为 MMLU-Redux 的项目，对其中 5,700 道题目进行了重新标注和修订，提供了一个更可靠的评分基准。

此外，MMLU 的多选题形式虽然便于自动化评估，但无法有效测试模型的生成能力（如创意写作）或长篇推理能力。

当前状态

尽管当前的最先进模型（SOTA，state of the art）在 MMLU 上已经取得了近乎“满分”的表现，但 MMLU 仍是一个不可或缺的基础性基准测试。如今，突破 90%的准确率已被视为发布任何顶级模型的“入场券”。

小结

MMLU是一个旨在测试模型在零样本或少样本情境下的知识广度、深度和推理能力，类似于大学水平的综合考试。其覆盖广泛领域并具有挑战性，被视为行业评估的黄金标准。然而，其也存在题目瑕疵和无法测试生成能力的局限性。尽管如此，MMLU仍是衡量旗舰模型性能的重要基准，达到90%准确率已成为顶级模型发布的基本门槛。

LLM智力考察 - MMLU