HELM：语言模型的整体评估（一）

Holistic Evaluation of Language Models

https://arxiv.org/abs/2211.09110

Percy Liang等人

[Stanford University]

https://crfm.stanford.edu/helm/v0.1.0/

https://github.com/stanford-crfm/helm

大模型（LLM）已经成为了大多数语言相关的技术的基石，然而大模型的能力、限制、风险还没有被大家完整地认识。该文为大模型评估方向的综述论文，由Percy Liang团队打造，将2022年四月份前的大模型进行了统一的评估。其中，被评估的模型包括GPT-3，InstructGPT等。在经过大量的实验之后，论文提出了一些可供参考的经验总结。

这篇论文非常长，在阅读之前建议观看李沐老师的梳理：https://www.bilibili.com/video/BV1z24y1B7uX/

摘要：语言模型正在成为几乎所有主要语言技术的基础，但它们的功能、局限性和风险还没有得到很好的理解。我们提出了语言模型的整体评估（HELM），以提高语言模型的透明度。首先，我们对LM感兴趣的潜在场景（即用例）和度量（即需求）的广阔空间进行分类。然后，我们根据覆盖率和可行性选择了一个广泛的子集，注意哪些内容缺失或代表性不足（例如，被忽视的英语方言的问题回答、可信度指标）。其次，我们采用多指标方法：在可能的情况下（87.5%的时间），我们为16个核心场景中的每一个测量7个指标（准确性、校准性、鲁棒性、公平性、偏见、毒性和效率）。这确保了超出准确性的指标不会半途而废，而且权衡也会明显暴露出来。我们还基于26个有针对性的场景进行了7次有针对性评估，以分析特定方面（例如推理、虚假信息）。第三，我们在所有42个场景中对30个突出的语言模型（跨越开放、有限访问和封闭模型）进行了大规模评估，其中21个以前没有在主流LM评估中使用过。在HELM之前，平均只有17.9%的核心HELM场景对模型进行了评估，一些著名的模型没有共享一个共同的场景。我们将其提高到96.0%：现在，所有30个模型都在标准化条件下，在相同的核心场景和指标上进行了密集的基准测试。我们的评估包括25项顶级调查结果。为了完全透明，我们公开发布了所有原始模型提示和完成，以供进一步分析，以及一个通用的模块化工具包。我们打算让HELM成为社区的生活基准，不断更新新的场景、指标和模型。

1简介

基准面向人工智能。它们编码了价值观和优先级（Ethayarajh和Jurafsky，2020；Birhane等人，2022），规定了人工智能社区需要改进的方向（Spärck-Jones和Galliers，1995；Spárck-Jones，2005；Kiela等人，2021；Bowman和Dahl，2021；Raji等人，2021）。当得到适当的实施和解释时，它们使更广泛的社区能够更好地理解人工智能技术并影响其发展轨迹。

近年来，可以说最先进的人工智能技术是基础模型（Bommasani等人，2021），以语言模型的兴起为主题（LMs；Peters等人，2018；Devlin等人，2019；Brown等人，2020；Rae等人，2021；Chowdhery等人，2022）。语言模型的核心是一个接收文本并生成文本的框（图1）。尽管它们很简单，但当这些模型在大规模的广泛数据上进行训练时，它们可以适应（例如提示或微调）无数的下游场景。然而，对模型能力、局限性和风险的巨大表面仍知之甚少。快速的发展、不断上升的影响和不充分的理解要求我们对语言模型进行全面的基准测试。

但是，对语言模型进行全面的基准测试意味着什么呢？语言模型是通用的文本接口，可以应用于广泛的场景中。对于每种场景，我们可能都有一套广泛的需求：模型应该准确、鲁棒、公平、高效等等。事实上，这些需求的相对重要性通常不仅取决于视角和价值观，还取决于场景本身（例如，推理效率在移动应用中可能更重要）。

我们认为，整体评估包括三个要素：

（1）广泛的覆盖范围和对不完全性的认识。考虑到语言模型庞大的能力和风险，我们需要在广泛的场景中评估语言模型。扩大评估范围一直是NLP社区的一个持续趋势，从SQuAD（Rajpurkar et al.，2016）等单个数据集到SuperGLUE（Wang et al.，2019b）等小型数据集，再到GPT-3评估套件（Brown et al.，2020）、Eleuther AI LM Harness（Gao et al.，2021b）和BIGBench（Srivastava et al.，2022）等大型数据集。然而，既不可能考虑所有场景，也不可能考虑与LMs相关的所有需求。因此，整体评估应该提供自上而下的分类法，并明确所有缺失的主要场景和指标。

（2）多指标测量。有益于社会的系统反映了许多价值观，而不仅仅是准确性。整体评估应该代表这些复数需求，评估所考虑的每个场景的每个需求。

（3）标准化。我们的评估对象是语言模型，而不是特定场景的系统。因此，为了有意义地比较不同的LM，应该控制LM适应场景的策略。此外，应尽可能在相同的情况下对每个LM进行评估

总体而言，整体评估通过全面评估语言模型来建立透明度。我们不是在特定方面进行磨练，而是努力对语言模型进行更全面的表征，以提高科学理解并确定社会影响。

1.1HELM

语言模型的整体评估（HELM）有两个层次：（i）场景和度量的抽象分类法，以定义语言模型评估的设计空间；（ii）一组具体的实现场景和度量，这些场景和度量被选择为优先考虑覆盖范围（如不同的英语变体）、价值（如面向用户的应用程序），以及可行性（例如有限的工程资源）。

对不完整性的认识。

人工智能的基准，包括SuperGLUE（Wang et al.，2019a）、EleutherAI LM Harness（Gao et al.，2021b）和BIGbench（Srivastava et al.，2022）等语言模型的基准，都是由场景和指标的具体选择来定义的。不同的基准对优先考虑什么、如何做出这些决定以及在多大程度上这些过程在提出基准时被明确做出了不同的决定。由于我们的目标是全面评估，我们认为有必要明确我们期望评估的内容和实际评估的内容之间的关系。HELM的构建从自上而下开始，对场景和度量进行分类（见图2）。分类法不仅有助于系统地选择场景和指标，而且还明确了缺失的内容。我们将HELM视为一个活的基准，我们希望抽象的分类法以及场景和指标的具体选择都将根据技术、应用程序和社会关注点而发展。在§10：缺失中，我们明确强调了HELM所缺乏的应优先考虑的评估。通常，这些都是整个人工智能领域历来忽视的。

多指标测量。

HELM目前实现了一个由16个场景和7个（类别）度量组成的核心5集合。我们的场景是（任务、领域、语言）的三元组，涵盖6个面向用户的任务（如问答、信息检索、摘要、毒性检测）、几个领域（如新闻、书籍），目前只有英语（尽管我们涵盖了几个英语变体，如非裔美国人英语和不同英语国家的英语变体）。我们的7类指标反映了一系列社会考虑因素（即准确性、校准、鲁棒性、公平性、偏见、毒性和效率）。我们强调，虽然我们有针对所有这些考虑的具体量化指标，但它们（例如公平）是复杂且有争议的社会结构，可以以许多不同的方式操作。与我们整体评估的第二个要素一致，我们确保我们的基准达到密集的多指标测量：在112个可能的（核心场景，指标）对中，我们测量了98个（87.5%），如表4所示。

这种多指标视角传达了我们对人工智能评估实践的立场。虽然大多数基准主要是前景准确性，但可能会将其他指标的评估（例如模型产生有毒内容的程度）推迟到单独的场景（例如RealToxicityPrompts），我们认为，在我们期望部署模型的相同上下文中评估所有这些度量是不可或缺的（见图3）。特别是，在相同的情况下测量这7种需求可以做出明确的潜在权衡，并有助于确保这些需求不会被准确地视为二等公民（见Friedman和Nissenbaum，1996）。

有针对性的评估。

除了我们的16个核心场景之外，HELM还通过26个额外的场景和伴随的指标进行了7次有针对性的评估。这些评估的目标是语言理解、世界和常识知识、推理能力、记忆和版权、虚假信息的产生、偏见和毒性的产生，从而对核心场景进行更深入的研究。这包括21个全新的场景（例如WikiFact）或尚未用于主流语言模型评估（例如ICE）的场景。虽然HELM以整体方法为导向，以预测社会影响，并反映在我们的多尺度视角中，但评估也可以查明具体现象，以促进科学理解（例如，模型执行类比推理的能力；参见Bommasani等人，2021，§4.4）。因此，为了使我们的评估结果更容易理解，我们将核心场景与目标评估分开：核心场景和多指标测量为模型提供了一个集成的视角，而目标评估则隔离了特定的技能和风险。

标准化。

为了建立对现有语言模型的共同理解，与我们的第三个整体评估元素一致，我们在HELM上对30个突出的语言模型进行了基准测试。这些模型来自12个组织：AI21实验室（例如J1 Jumbo v1（178B））、Anthropic实验室（AnthropicLM v4-3（52B）），BigScience实验室（例如BLOOM（176B）、Cohere实验室（例如Cohere xlarge v20220609（52.4B））、EleutherAI实验室（例如GPT NeoX（20B）），和Yandex（YaLM（100B））。鉴于这些模型的可访问性各不相同，对其进行基准测试是具有挑战性的（见Liang et al.，2022）：有些是开放的（例如GPT NeoX（20B）），有些是有限的访问（例如GPT-3 davinci v1（175B））；有些是封闭的（例如Anthropic LM v4-3（52B））。在某些情况下，人们对这些模型是如何构建的知之甚少（例如，训练数据及其大小通常未知），例如InstructGPT davinci v2（175B*）。6我们所知道的是，这些模型中有几个是在面向外部的商业API（如OpenAI游乐场）或产品（如GitHub Copilot）中部署的。也就是说，这些模式中的一些目前正在产生直接的社会影响。由于缺乏评估标准，社区无法清晰、严格地理解语言模型的整体情况。为了证明语言模型评估的不均衡性，我们在附录F中注释了用于评估40多个语言模型的数据集（即本工作中评估的所有模型以及PaLM和Gopher等其他模型）。我们发现，T5（11B）和Anthropic-LM v4-s3（52B）等主要模型在其最初的工作中没有在一个相同的数据集上进行评估（Raffel等人，2019年；Askell等人，2021）。事实上，有几个模型（例如J1 Grande v1（17B）、Cohere xlarge v202206009（52.4B）、YaLM（100B））在我们努力之前（据我们所知）没有报告任何公开结果。即使是在主要语言建模工作中评估的所有405个数据集中经常评估的数据集（例如HellaSwag；GLUE和SuperGLUE中的许多数据集），我们也发现评估条件差异很大。在HellaSwag上，一些先前的工作报告了微调的精度（例如T5（11B）），而另一些工作报告了提示精度（例如GPT-3 davinci v1（175B））。7即使工作通过很少的镜头提示报告结果，确切的细节也会有所不同，如Zhao等人（2021）所讨论的，在§8.2：提示分析中，我们表明导致精确度大幅波动（例如，相同（模型、场景）对的精确度为30%至80%）。

在图4中，我们明确说明了我们的评估是如何改变现状的。此前，即使在汇编了分散在不同先前工作中的评估后，平均仍对17.9%的核心场景对模型进行了评估。我们将这一点提高到96.0%。8通过在相同的场景下评估这些模型，并在标准化条件下进行评估（例如，对所有模型使用相同的少量提示），我们有助于直接进行正面比较。

适应的重要性。

为了对这些模型进行基准测试，我们必须指定一个适应程序，该程序使用通用语言模型来处理给定的场景（参见Bommasani等人，2021，§4.3）。在这项工作中，我们通过GPT-3（Brown等人，2020）提出的少量提示来适应所有语言模型。此外，我们选择了相对简单的通用提示，以便将语言模型的开发导向对直接自然语言做出有力响应的通用语言接口，而不是要求特定于模型的咒语。当然，更复杂的提示（例如，思想链；Wei等人，2022c）、快速分解（Wu等人，2022；Press等人，2022.；Arora等人，2022-）和快速调整（Lester等人，2021；Li和Liang，2021。探索适应战略是我们留给未来工作的另一个基准方面。

注意事项和注意事项。

在介绍我们的实证研究结果之前，我们强调了三个关键考虑因素。首先，虽然我们对模型评估进行了标准化，特别是通过评估相同场景、相同指标以及5点提示的相同提示的所有模型，但模型本身可能更适合特定场景、特定指标和特定提示/适应方法。明确地说，虽然一些模型在我们的评估下可能表现不佳，但它们在其他情况下可能表现良好。其次，虽然评估本身可能是标准化的，但训练这些模型所需的计算资源可能非常不同（例如，资源密集型模型在我们的评估中通常表现得更好），这在一定程度上被我们的效率测量所捕获。最后，模型在暴露于我们使用的特定数据分布或评估实例方面也可能存在显著差异，有可能导致列车测试污染。我们强调，我们对模型是如何被污染的，以及这在多大程度上损害了我们评估的有效性和合法性，了解有限，尽管我们在附录G中提供了我们所知道的所有证据。

1.2经验发现

为了了解我们评估的规模，我们总共进行了4939次测试（即在特定场景下评估特定模型），这些测试都可以在https://crfm.stanford.edu/helm/v1. 0/?runs=1。这相当于所有模型的12169227491个令牌和17431479个查询的总成本，商业API的38001美元，以及开放模型的约19500 GPU小时的计算成本。

以下是高级别调查结果摘要：

（1）指令调整的好处。

在核心场景中，我们发现InstructGPT davinci v2（175B*）在准确性、鲁棒性和公平性指标方面表现最好，其中Anthropic LM v4-3（52B）在所有3个指标中都排名前三（尽管与TNLG v2（530B）相比，模型规模小了10倍多，后者是第二准确和公平的），如图26所示。考虑到这两个模型都具有非常强大的性能，并且它们是我们评估的唯一指令调优模型（除了小得多的InstructionGPT变体之外），这表明指令调优提供了广泛的优势。

（2）将模型准确性与模型访问联系起来。

鉴于AnthropicLM v4-3（52B）（闭源）、TNLG v2（530B）（闭源）和InstructGPT davinci v2（175B*）（有限访问）的高精度，我们在当前开放模型和非开放模型之间的所有核心场景（图28）上观察到一致的差距。我们强调，这一差距反映了我们评估的模型的当前快照（表5），并且随着新模型的发布，差距可能会随着时间的推移而扩大或缩小。一方面，我们认为最近发布的开放模型（OPT（175B）、BLOOM（176B）、GLM（130B））大大缩小了过去一年的差距，但我们也没有评估一些非开放模型（如PaLM、Gopher），我们预计这些模型会非常准确。在任何一种情况下，随着时间的推移监测这一差距对于跟踪可访问性（或缺乏可访问性）以及最终与语言模型相关的权力动态至关重要。

（3）校准。

我们观察到，精度和校准之间的关系（§4.4：度量校准）取决于场景和适应程序（图24，图25）。例如，对于HellaSwag，9提高精度会恶化校准，而对于OpenBookQA，10提高精度会改善校准。

（4）鲁棒性和公平性扰动。

在所有场景中，我们都观察到准确性、鲁棒性和公平性之间的强相关性，其中鲁棒性和公平度量考虑了一组扰动（例如，鲁棒性的拼写错误，公平的方言更改）的最坏情况下的准确性-更多详细信息，请参见§4.5：度量鲁棒性，§4.6：度量公平。虽然准确性和公平性之间有很强的相关性（图24，图25），但我们确实观察到了最准确的模型不是最鲁棒或最公平的模型的权衡。在某些情况下，我们也看到了严重的下降：例如，在NarrativeQA上，TNLG v2（530B）在存在鲁棒性扰动的情况下，从72.6%的标准精度（即第三精确模型）急剧下降到38.9%的精度。11

（5）性能差异。

当我们可以访问人口统计元数据时，我们通常会看到所有模型的性能差异是一致的。作为种族化方言差异的一个例子，OPT（175B）是TwitterAAE上最准确的模型，但其准确性从白人英语的1.506比特/字节下降到非裔美国人英语的2.114比特/字节（越低越好）。12

（6）世代伤害。

我们发现，模型生成中的偏差和毒性在很大程度上是恒定的，而核心场景的总体平均值较低（图24）。然而，请注意，即使是低水平的偏见或毒性也可能造成非微不足道的社会伤害，需要进行有针对性的评估，以获得更详细的特征（§5.6：有针对性偏见，§5.7：有针对的毒性）。

（7）准确性与效率。

在所有30个模型中，我们没有看到精度和效率之间的强烈权衡（这取决于模型架构和硬件，见§4.9：度量效率）（图24）。对于每个模型族（例如，GPT-3的不同大小的变体），我们发现随着模型变得更大，准确性不断提高，但训练和推理成本更高。13总体而言，我们观察到，对于每个场景，只有所有模型的子集（跨模型族）处于准确性-效率Pareto前沿。

（8）问答。

在9个核心问答场景（§3.3：问答）中，我们观察到结果的显著异质性，尽管InstructionGPT davinci v2（175B*）是所有9个场景中最准确的模型。14事实上，对于9个场景的6个，在三个最准确的模型中没有开放的模型，因为它们通常是InstructionGPT-davinci v2（175B+）、Anthropic LM v4-3（52B），以及TNLG v2（530B）。

（9）信息检索。

我们考虑了在给定查询的情况下对候选段落进行排名的经典任务（§3.4：信息检索）。我们评估的性能最好的模型优于经典检索方法，在某些设置下，其性能与各种微调的神经检索器相当，但仍落后于现有技术。15由于候选的数量可能很大，我们为每一段创建LM请求，这需要模型产生校准的概率。我们使用LM进行段落排序是非正统的，并且在其天真的实现中计算密集，但我们将其作为概念证明。

（10）总结。

多年来，CNN/DaylyMail和XSUM一直是摘要的标准基准，但这些数据集中的官方参考摘要在人类评估中的表现优于生成的模型摘要，尤其是在忠诚度方面（表8）。总的来说，我们认为总结基准（以及指标）必须通过纳入高质量的、人工编写的总结（§10.1：缺失的场景）来改进，这样我们才能就情境学习、教学调整和微调的效果得出有意义的结论（见§8.5.1：人工评估总结）。

（11）情绪分析。

对于IMDB上的情绪分析，许多模型都非常准确，并且经过了很好的校准，鲁棒性和公平性扰动的边际下降，但Gardner等人的对比集。（2020）突出了模型鲁棒性的明显局限性（例如，GLM（130B）中最准确的模型之一下降了8%以上）。16

（12）毒性检测。

对于CivilComments上的毒性检测，我们发现大多数模型都不是特别准确：OPT（175B）是所有场景中最准确的模型之一（图26），但基本上达到了50.1%的偶然准确率，我们发现，在提到黑人和白人的评论中，大多数模型在检测毒性方面也同样准确。然而，模型的鲁棒性差异很大：OPT（175B）在黑色分割上从51.3%的标准精度下降到8.8%的鲁棒精度，而在白色分割上下降的幅度较小（50.8%到24.3%）。

（13）其他文本分类。

对于RAFT上的文本分类，我们看到了显著的异质性，其中模型在哪些子集/任务上做得很好。18与其他模型相比，InstructGPT davinci v2（175B*）在拆分中始终是准确的，但在系统审查包含拆分中表现非常差，准确率为40.8%，而几个模型（例如GLM（130B））的准确率为97.5%。

（14）语言理解。

语言建模19的准确性趋势与核心场景的趋势截然不同（图26）。特别是，GPT-NeoX（20B）、OPT（175B）、BLOOM（176B）、GPT-J（6B）和OPT（66B）在the Pile、TwitterAAE和ICE上的每字节比特数始终最低（越低越好）。就语言现象而言，所有模型在BLiMP上的总体表现相当相似，甚至在形态学、句法、语义和句法语义的每个特定子集上的表现也非常相似。我们看到不规则形式（形态学）的分布最广，令人惊讶的是，对核心场景最准确的模型（即InstructGPT davinci v2（175B*）、TNLG v2（530B））对不规则形式的准确性最低，这可能表明它们过度概括了特定的语言规则。20

（15）知识。

InstructGPT davinci v2（175B*）在所有知识密集型评估中都表现出优异的性能，21在TruthfulQA上的准确率差距非常大，为62.0%，而在Anthropic LM v4-3（52B）中的准确率为36.2%。22此外，TNLG v2（530B）在高度知识密集型NaturalQuestions（闭卷）和WikiFact场景中表现出强大的性能，这通常与模型规模特别有助于改善事实知识的获取的假设一致。例如，人类LM v4-3（52B）和TNLG v2（530B）在大多数情况下往往获得非常相似的准确度（如图26所示），但TNLG v2在这两种情况下都有很大的差距（NaturalQuestions（闭书）为38.5%对28.7%，WikiFact为34.3%对22.3%）。

（16）推理。

对于推理密集型场景，我们发现代码模型，尤其是Codex davinci v2，即使在自然语言中提出的合成推理场景中，也始终优于文本模型。23这一差距在数学推理中得到了明确体现：对于GSM8K，Codex davinchi v2的准确率为52.1%，其中，次优模型是InstructGPT davinci v2（175B*），准确率为35.0%，没有其他模型超过16%。24此外，除了Codex davinci v2之外，Instruct GPT davonci v2（175 B*）比其他文本模型准确得多（例如，自然语言中合成推理的准确率为65.1%，而次优文本模型是OPT（175B），准确度为29.4%，而Codex davinci v2的准确率为72.7%）。

（17）版权/许可材料的记忆。

我们发现，受版权保护的长序列直接反流的可能性有些罕见，但在阅读流行书籍时确实会变得明显。25然而，我们确实发现反流风险与模型准确性明显相关：InstructGPT davinci v2（175B*）、GPT-3 davinci v1（175B），和Anthropic LM v4-3（52B）显示出与它们的高准确性一致的最高的逐字反流量。

（18）消毒。

我们发现，最大的模型（特别是InstructGPT davinci v2（175B*）和Anthropic LM v4-3（52B））在生成支持给定论文的现实标题方面是有效的，26但当提示模型生成鼓励人们执行某些操作的文本时，结果更为复杂（表9）。27

（19）有针对性的偏见。

对于BBQ，InstructGPT davinci v2（175B*）是最准确的模型，准确率非常高（89.5%），其次是最准确模型（T0++（11B），为48.4%；TNLG v2（530B），44.9%）是唯一精度超过40%的其他型号。我们之所以强调这一点，是因为我们在BBQ上看到了模糊上下文中模型准确性和模型偏差之间非常显著的关系。这三个模型是最准确的三个模型，是仅有的三个在模糊背景下存在偏见的模型，这些偏见与更广泛的社会偏见/歧视相一致，而所有其他模型都显示出另一个方向的偏见（图40）。换言之，我们发现，对于BBQ来说，最准确的模型正是那些在歧义语境中最关注社会偏见的模型，尽管歧义语境中的趋势不太清楚。

（20）靶向毒性产生。

对于核心场景，我们观察到毒性产生率相当低。在毒性生成方面，与RealToxicityPrompts和BOLD中相对无毒的提示相比，所有模型都显示出RealToxityPrompts中毒性提示的毒性生成趋势更强。28了解这些趋势是如何根据所使用的自动毒性检测模型（目前为PerspectiveAPI）发生变化的，以及何时使用不同利益相关者的人类判断，是未来工作的一个关键领域。

（21）全面性。

通过在统一的条件下进行广泛的评估，我们暴露了显而易见的发现。换句话说，尽管在许多情况下，我们正在评估公开数据集上公开可用的模型，但我们还是发现了新的发现。例如，我们发现InstructGPT davinci v2（175B*）在NarrativeQA上实现了74.4%的ROUGE-L的准确性，据我们所知，这在所有方法中都树立了新的最先进水平，在这种情况下，超过了强QA专用的UnifiedQA-v2模型（67.4%的ROUGE-L；Khashabi等人，2022）。

（22）提示。

所有模型都对提示的格式、上下文中示例的特定选择以及所有场景和所有度量的上下文中示例数量表现出显著的敏感性（见§8.2：提示分析）。在这项工作中，我们一直致力于使这些维度标准化（例如，确保使用相同的提示实践的模型是可互操作的/可执行的），但当前的模型在哪些提示决策将最大限度地提高准确性方面有所不同。29

（23）多选自适应方法。

我们发现，模型性能对多选场景如何适应提示极为敏感：例如，当每个答案选择都出现在单独的0次提示中时，HellaSwag上OPT（175B）的准确率为79.1%（即最准确的模型之一），但当答案选择在一个五题提示中（即以多项选择题考试的形式）联合呈现时，其准确率急剧下降至30.2%（几乎是随机的）。30此外，即使在相同的情况下，最大化准确率的自适应方法也可能因模型而异（并产生质的不同结果）（图33）。这对以公平的方式跨模型标准化语言模型评估的意义提出了根本性的挑战。

（24）上游困惑和下游准确性。

考虑到LMs可以提供价值的无数场景，如果上游对语言建模目标的困惑可靠地预测了下游的准确性，那么这将具有吸引力，原因有很多。不幸的是，当在模型族之间进行这些比较时，即使使用每字节比特数（BPB；这比困惑更具可比性），我们也发现这种类型的预测效果不佳：The Pile上的BPB对下游精度的预测很差（图30），尽管我们注意到一些模型是在The Pile中训练的，而其他模型则不是（表14）。更广泛地说，考虑到许多下游结果，我们鼓励未来的工作探索新的内在/上游性能替代指标，如Bommasani等人（2021，§4.4.2）所述，这些指标可以被证明能够可靠地预测下游结果（包括超出准确度的迫切需求）

（25）模型规模的趋势。

我们发现，在一个模型族中，模型规模可以可靠地预测模型的准确性，但对于任何场景来说，都不能很好地预测所有模型的下游准确性（图29）。然而，我们看到了一个非常明显的阈值效应：所有在准确率上赢得正面模型比较的模型（即>55%）都至少有50B的参数（图26）。这些模型是10个最准确的模型，其中一些最准确的（即前5个）是最小的（Anthropic LM v4-3（52B），Cohere xlarge v202206009（52.4B）），但与其他方式相比可能效率低下（例如，使用人类反馈进行训练；比较TNLG v2（530B）和人类LM v4-3（52B））。

1.3贡献

总之，我们的贡献是：

（1）分类学。

我们将语言模型评估的巨大设计空间分类为场景和度量。通过陈述这种分类法，我们可以从这个空间中系统地进行选择，这明确了我们在基准设计中的优先事项和目前基准中的限制（见§10：缺失）。

（2）覆盖范围广。

根据我们的分类法，我们选择并实现了16个核心场景，为此我们全面衡量了7个指标（准确性、校准、鲁棒性、公平性、偏见、毒性和效率）。我们还包括7项针对技能和风险的评估（如知识、推理、虚假信息、版权），引入了21种以前未在主流语言模型评估中使用过的新场景。

（3）对现有模型的评估。

我们在基准测试的标准化条件下评估了30种语言模型，确保现在可以在许多场景和指标中直接比较模型。这些模型在公共访问方面各不相同：10个开放，17个有限访问，3个闭源

（4）经验发现。

我们的广泛评估产生了一系列发现（§8：实验），在某些情况下，这些发现强化了文献中的发现，而在另一些情况下，产生了关于当今语言模型的新知识。这些结果为未来的语言模型开发提供了指导，并为进一步分析提供了充足的机会。

（5）交互式结果和代码库。

我们提供了一个公共网站，提供所有结果、基本模型预测和适应细节，以及可扩展的代码库，以支持社区进一步开展HELM。31承认这项工作建立在先前的工作基础上。为了建立我们对语言模型的整体评估，我们直接建立在许多先前工作的基础上。虽然我们主张全面评估语言模型，即集中许多不同的评估，但我们希望明确指出，整个人工智能社区的基础工作应该得到认可和引用，因为如果没有它们，HELM就不会以目前的形式存在。特别是，如果HELM的结果被未来的工作所使用，或者在HELM上评估新的模型，他们应该引用创建了构成HELM的许多数据集/评估的工作。32因此，我们在代码库中提供了所有这些工作的BibTeX条目33，并明确承认网站上每次评估的相关工作。34

2项预备赛

我们介绍了评估语言模型所需的基本原语（场景、自适应、度量）（图5）。有了这些原语，我们就可以为如何全面评估语言模型提供路线图。

2.1场景

场景实例化了语言模型所需的用例。有用的语言模型可以在各种场景中执行：场景是我们希望模型做的事情。虽然语言模型的实际用例涉及其他因素，但我们通过一系列实例来操作场景，这些实例分为一个训练集和一个或多个测试集。每个实例由（i）一个输入（一个字符串）和（ii）一个引用列表组成。每个引用都是一个字符串，带有与评估相关的财产注释（例如，它是正确的还是可接受的？）。有关示例场景，请参见图6。

2.2适应

自适应是将语言模型和训练实例转换为可以对新实例进行预测的系统的过程。自适应程序的示例包括提示、轻量级微调和微调；我们在这项工作中重点关注提示。

我们将语言模型定义为一个黑盒，它以提示（字符串）和解码参数（如温度）作为输入。该模型输出一个完成（字符串），以及提示和完成的日志概率。我们不假设可以访问内部模型激活或其训练数据，这反映了研究人员可以访问API的实际情况（Liang et al.，2022）。事实上，我们甚至没有对语言模型是如何构建的做出任何假设。请参见图7，了解我们如何调整图6中的示例场景。

将语言模型视为文本到文本的抽象非常重要，这有两个原因：首先，虽然原型LM目前是一个基于原始文本的密集Transformer，但LM也可以使用外部文档存储（Lewis等人，2020c）、在web上发布搜索查询（Nakano等人，2021），或者接受人类偏好的训练（Ouyang等人，2022；Bai等人，2022.）。我们希望对这些实现细节保持不可知。其次，文本到文本抽象是一个方便的通用界面，可以捕获所有感兴趣的（仅文本）任务，这一想法是由McCann等人开创的。（2018）和Raffel等人（2019）。

2.3指标

一旦对语言模型进行了调整，我们就在每个场景的评估实例上执行生成的系统，生成具有对数概率的完成。为了确定模型的性能，我们计算这些完成度和概率的度量。度量标准具体地操作了我们对有用系统所要求的抽象需求。有关更多详细信息，请参见§4：指标。我们为运行示例（图6）计算的度量可能如下所示：

2.4路线图

要评估语言模型，我们必须指定一系列运行，其中每个运行都由（场景、自适应方法、度量）三元组定义。这些场景、自适应和度量中的每一个都定义了一个复杂而结构化的空间，在评估语言模型时，人们会隐式地导航该空间以做出决策。我们整体评估方法的核心是明确空间和决策。在§3：核心场景和§4：度量中，我们首先对两个空间进行分类，然后从空间中系统地选择点。这规定了我们的抽象愿望和具体实现，它们共同定义了HELM。区分这些步骤也有助于澄清什么是根本可能的，而我们作为一个特定的基准设计师群体，选择了优先考虑和强调什么。然后，我们通过对适应程序（即5点提示）进行具体选择来评估30个模型，尽管我们强调可以考虑许多其他适应程序。

3个核心场景

我们根据（i）任务（例如问答、摘要）对场景进行分类，如图8所示，该任务表征了我们希望系统做什么；（ii）一个域（例如Wikipedia 2018转储），它描述了我们希望系统做得好的数据类型；以及（iii）语言或语言种类（例如西班牙语）。任务、域和语言不是原子或明确的结构：它们可以变得更粗糙和更精细，但我们将它们用作场景空间的直观结构。鉴于这种结构，我们根据三个总体原则故意选择场景：（i）空间的覆盖率，（ii）所选场景集的最小性，以及（iii）对与面向用户的任务相对应的场景进行优先级排序。除了考虑到我们的资源（我们明确承认这一点）的可行性外，这还定义了我们评估的核心场景，我们将根据这些场景来衡量所有指标。在§10.1：缺失的场景中，我们强调了我们分类但目前在基准/场景选择中没有涵盖的场景空间区域。

任务。

鉴于自然语言的普遍性，自然语言处理（NLP）领域考虑了与语言的许多功能相对应的无数任务（Jurafsky和Martin，2000）。很难从第一性原理推导出任务的空间，所以我们汇编了现有的任务来源。自然，鉴于NLP是一个以任务为中心的领域，我们从NLP社区广泛研究的任务开始。为了生成这个集合，我们在一个主要的NLP会议（ACL 2022）上进行了跟踪，这些跟踪反映了在撰写时NLP研究的“相关主题”。35对于每个跟踪，我们将NLP的相关子区域映射到表1中该跟踪的规范任务。我们承认，在选择什么是“规范的”时存在一些主观性，这样做只是为了使这个过程易于管理。

虽然这些任务在NLP研究界通常具有长期的研究传统，我们有两个观察结果：（i）这些任务通常具有重要的任务内结构（例如，我们将所有问题回答都称为一个“任务”，而QA社区可能会进一步将QA分解为细粒度类别（Rogers等人，2021））和（ii）虽然这些任务在NLP研究中有（长期）研究传统，但它们并不是唯一的，甚至是最具社会/经济影响力的任务。

例如，OpenAI、Cohere和AI21实验室将语言模型部署为接口，引入了NLP社区历史研究之外的用例（见图9，并与表1进行了比较）。事实上，其中一些任务是全新的：能力足够的技术的出现促使人们考虑以前没有想到的任务（或被认为在算法系统的范围内）。此外，这些任务模式与NLP和人工智能研究界传统研究的模式截然不同（见Ouyang et al.，2022）。这给陈述任务空间带来了一个根本挑战：在我们看到让我们考虑这些任务的技术之前，我们将无法想象真正的完整任务空间。而且，更广泛地说，即使阐明（更不用说涵盖）已知潜在用例的长尾仍然是开放的。

域名。

域是NLP中常见的结构，但它们的不精确性使域的系统覆盖变得复杂。我们根据3W进一步分解域：

（1）什么（流派）：文本的类型，它捕捉主题和语域的差异。例如：维基百科、社交媒体、新闻、科学论文、小说。

（2）何时（时间段）：创建文本的时间。例如：20世纪80年代、互联网之前、现在（例如，它是否涵盖了最近的数据？）

（3）谁（人口统计组）：谁生成了数据或数据是关于谁的。例如：黑人/白人、男性/女性、儿童/老人。

我们不包括文本的创建地点（例如国家）和创建方式（例如手写、打字、从语音或手势转录），但这些也可能是相关的。此外，为什么创建文本与它是什么密切相关。准确地说，语言模型输入中的文本数据（例如，问答中的问题或段落，如果可用的话）和答案（例如，摘要中的摘要）具有不一定相同的相关域。为了简单起见，我们将假设数据集具有与其输入的财产相对应的单个域，尽管考虑与输入和输出的所有方面相关的域会更精确。

语言。

全世界数十亿人讲数千种不同的语言（见图10）。然而，在人工智能和自然语言处理方面，绝大多数工作都集中在少数资源丰富的语言（如英语、汉语）上，甚至包括有大量使用者的语言（例如，西非语言富拉语的使用者超过6500万，但富拉语几乎没有自然语言处理资源；Nguer等人，2020）。考虑到这一点，我们不会对世界语言进行广泛的分类，因为我们将主要评估纯英语模型（除了一些例外，如BLOOM（176B），它们显然是多语言的，但我们只评估英语）。

因此，我们转而将重点放在英语变体和方言的报道上。在这方面，我们注意到语言类型学和社会语言学有几个令人感兴趣的轴心；我们将参考Bommasani等人（2021，§2.1）和Joshi等人（2020）进行进一步讨论。

3.2选择

作为一个覆盖范围的问题，理想情况下，我们将在每个场景（即每个（任务、域）对）上评估语言模型。然而，正如我们在分类法中所展示的那样，任务和域本身都是丰富而广阔的空间。出于这个原因，我们不是努力覆盖场景，而是致力于覆盖任务、域和语言，每个都独立。这有可能不会暴露出重要的相互作用（例如，我们可能对边缘化群体撰写的文本的毒性检测特别感兴趣（Sap et al.，2019a）），但这是我们出于实际原因做出的决定（例如，数据集的可用性、实施场景的努力，以及评估所选场景下LMs的计算资源）。

任务。

要选择任务，我们从前面描述的集合开始。由于我们正在研究英语语言模型，我们会筛选不可行的任务（例如，多模式任务或机器翻译不适合单模式英语语言模型）。36在剩下的任务中，我们选择优先考虑面向用户的任务：我们相信这些任务将赋予语言模型的大部分直接社会影响，并与我们将语言模型视为界面的观点一致。因此，我们根据对用户行为的判断来筛选任务。37这产生了以下任务：问题回答、信息检索、摘要、情绪分析和毒性检测。38为了提供对任务长尾的一些覆盖，我们包括了杂项文本分类，它代表了历史上语言技术和当前语言模型的非标准文本分类用例。

领域和语言。

鉴于我们发现，与任务相比，对域进行显式枚举更为复杂，39我们在选择特定数据集以实例化场景时，转而关注域覆盖。同样，我们通过在§5.1：语言中讨论的有针对性的评估，确保覆盖不同英语国家的英语变体以及非裔美国人的英语。在这样做的过程中，我们还展示了我们对最小评估集的渴望（这两者都是因为评估有成本，所以更大的评估集会更难处理，而产生更多的结果往往是以如何筛选为代价的）。考虑到这一点，我们强调，对于场景空间的大区域，特别是与领域有关的区域（例如，涉及老年人写的文本的场景），NLP中的数据集非常少（如果有的话）。我们希望社区能够在我们的工作基础上再接再厉，通过构建必要的和经常被低估的资源，确保我们基准中没有涵盖的领域和场景得到更大的覆盖（Jo和Gebru，2020；Paullada等人，2021；Rogers，2021；Jernite等人，2022）。为了促进这一点，我们在§10.1中明确确定了我们建议优先考虑的具体场景：缺失场景。我们还注意到，数据集不仅仅有这些轴，这些轴决定了它在多大程度上操作所需的用例（例如，数据集中众包标签的质量）。在确定了我们将要涵盖的任务和我们的领域/语言覆盖方法后，我们详细介绍了如何为每个场景选择特定的数据集。

3.3问答

问答（QA）是NLP中的一项基本任务，它支撑着许多现实世界的应用程序，包括网络搜索、聊天机器人和个人助理。就可以提出的问题和获得答案所需的技能而言，QA非常广泛，涵盖了一般语言理解（§5.1：语言）、知识整合（§5.2：知识）和推理（§5.3：推理）（Gardner等人，2019年；Rogers等人，2021）。

设置问题。

在QA中，给定一个问题（例如“蒙娜丽莎的画家出生在哪里？”），任务是预测正确答案（“意大利”）。问答的格式可能有一些变化：在开卷或阅读理解环境中，为模型提供了额外的参考上下文，如支持文件（例如“蒙娜丽莎”的维基百科页面）。在多项选择题设置中，将为问题提供可供选择的答案（例如“（A）法国（B）意大利”）。图11描述了一个示例。

数据集和选择过程。

NLP中有数百个问题回答数据集，近年来数据集数量迅速增加（Rogers等人，2021）。为了选择问答数据集，我们优先考虑（i）输入/上下文领域的领域覆盖率，以及（ii）数据集所需组件技能的覆盖率（例如，我们故意确保需要常识知识和推理的数据集）。

我们选择了NaturalQuestions（Kwiatkowski et al.，2019）、NarrativeQA（Kočisky et al.，2017）和QuAC（Choi et al.，2018）数据集，以确保领域覆盖，因为这些数据集分别涵盖了网络搜索查询、故事和对话问题（即对话）。NaturalQuestions由谷歌搜索的查询和维基百科的注释组成；我们考虑NaturalQuestions的开卷和闭卷变体。叙述性QA通过对书籍和电影剧本的理解来测试阅读理解。QuAC（上下文中的问答）提供了自由形式的问题和答案，这些问题和答案更开放，并依赖于上下文。

除此之外，我们添加了HellaSwag（Zellers et al.，2019）、OpenBookQA（Mihaylov et al.，2018）和TruthfulQA（Lin et al.，2021b）数据集，以确保常识知识和推理的覆盖。HellaSwag测试常识推理，并通过对抗性过滤来合成错误答案。OpenBookQA基于开卷考试，收集了基础科学事实和众包多项选择题，以测试对这些事实的理解和应用。TruthfulQA通过与人类常见误解一致的问题来测试模型的真实性，这些问题涉及法律、医学、金融和政治等领域，这些问题是使用GPT-3 davinci v1（175B）作为目标模型对抗性生成的。

为了进一步确保在许多学科中广泛覆盖知识密集型问答，我们添加了57个组成数据集的MMLU（Hendrycks et al.，2021c）元基准。MMLU（Measureing Massive Multitask Language Understanding）测量多任务的准确性，包括57项不同的任务，测试问题解决和一般知识。

最后，我们添加了BoolQ（Clark et al.，2019），除了QuAC之外，它还用于研究由于可用的对比度集（Gardner et al.，2020）导致的模型对等方差的鲁棒性。BoolQ是通过与NaturalQuestions相同的过程生成的二进制是/否问题的集合。

3.4信息检索

信息检索（IR）是指与搜索大型非结构化集合（通常是文本集合）有关的一类任务，是许多面向用户的应用程序的核心。IR有着悠久的研究传统（Salton和Lesk，1965；Salton，1971；Spärck-Jones，1972；Salton和McGill，1983；Manning等人，2008；Lin等人，2021a），是应用最广泛的语言技术之一。它为Web和电子商务搜索提供了动力，并且是许多知识密集型NLP系统中的关键组件，用于开放域问答或事实核查。

我们在这里关注的是文章排名任务：给出一个查询��和一个庞大的语料库��对于段落，系统必须输出顶部的列表-�� 来自的段落�� 降低与��. 我们专门在重新排名的背景下研究这一点：因为�� 通常是非常大的（例如|C|>10M段），我们只考虑排名靠前-�� 检索到的集合中的段落�� （即。��(��) 其中|��(��)| ≪ |��|) 通过有效的外部检索机制（例如BM25；Robertson和Zaragoza，2009）。

IR与我们在这项工作中考虑的其他任务有着根本的不同，因为每个测试示例（即查询）都需要处理大量的段落，并且可能会多次调用LM来处理这些段落。40正因为如此，IR任务在使用语言模型的上下文学习中很少受到关注，除了Sachan等人（2022年）最近采用的零样本方法。

设置问题。

我们以逐点的方式处理重新排序任务：我们使用提示将信息检索问题公式化为二进制对数概率问题，类似于Nogueira和Cho（2019）：给定一段�� 和一个查询��, 我们询问模型文章中是否包含对查询的回答。如果模型的答案是肯定的，并且概率很高，我们对相应的�� 越高，而具有高概率的“否”回答则达到相反的效果。图12描述了一个示例实例。然后使用标准信息检索度量来评估所产生的排名。

数据集和选择过程。

我们使用MS MARCO排名数据集演示了信息检索任务。虽然它最初是一项问答任务，但MS MARCO的检索版本是公开可用的最大的相关性判断集合，并且在过去几年中一直是神经IR进展的核心（Lin et al.，2021a）。

我们使用公共MS MARCO排行榜41附带的原始文章排名数据集（Nguyen等人，2016；此后为常规轨道）和TREC 2019深度学习轨道的数据集（Craswell等人，2020；此后为TREC轨道）。这两个数据集都评估了从网络上收集的900万篇文章中的检索。常规跟踪包含大量具有稀疏相关性判断的查询（例如，超过500000个训练集查询）：平均而言，注释器为每个查询只识别一个“正”（相关）段落，而其他每一个段落都被假设为负。与此相反，TREC跟踪只包含43个注释更严格的查询，有9000多个查询-段落对，与43个查询对应的相关判断。

3.5摘要

文本摘要是NLP的一个既定研究方向（Luhn，1958；Mani，1999；Spärck-Jones，1999；Nenkova和McKeown，2012），鉴于从摘要中受益的文本数量不断增加，其实际重要性越来越大。为了有效地总结，系统必须识别并生成源文档中的核心相关和信息性内容，同时删除不太关键的信息并避免冗余（Peyrard，2019）。近年来，语言模型的兴起极大地提高了摘要能力：生成流畅连贯的类人文本的能力是构建更好的摘要系统的核心基础（Lewis et al.，2020b；Zhang et al.，2019b）。

设置问题。

我们将文本摘要定义为一个非结构化的序列到序列问题，其中文档（例如CNN新闻文章）是输入，LM的任务是生成类似于参考摘要的摘要（例如CNN随文章提供的要点摘要）。图13提供了一个示例。该评估测试了模型的抽象摘要能力，其中直接要求模型生成摘要，而不是明确限制从输入文档中复制单词或更大的摘录。

为了评估模型性能，使用整体质量的自动化指标将模型生成的摘要与人工编写的参考摘要进行比较（ROUGE-2；BERTScore；Lin，2004；Zhang等人，2020b）、忠诚度（Laban等人，2022；Fabbri等人，2022）和提取性（Grusky等人，2018）。忠实是指模型摘要中的所有信息是否都得到了文章的支持（Cao et al.，2018；Durmus et al.，2020；Maynez et al.，2021）。提取性是指从输入文档中复制模型摘要的程度：摘要文献中广泛讨论了提取方法和抽象方法之间的区别（见Nenkova和McKeown，2012）。我们计算提取率，因为之前的工作表明，当前的摘要系统在提取较少时，平均来说往往不太可靠（Durmus等人，2020年；Mrini等人，2021；Ladhak等人，2022年）。

我们特别注意忠实性，因为神经模型，尤其是神经模型，经常会产生与所总结的文档中出现的内容不同的幻觉。因此，测量和提高这些系统的忠诚度很重要，因为当部署在现实世界中时，不忠诚的系统可能会传播错误信息，包括危险但难以检测的错误，从而造成危害。我们首先使用最近提出的无参考评估指标来评估LMs，这些指标已被证明与人类的忠诚度得分具有高度相关性（Laban等人，2022；Fabbri等人，2022）。最近的工作表明，一些无参考的评估指标可能主要依赖于虚假的相关性（）。

鉴于此，我们进一步进行了一项人类用户研究，以验证和补充自动化评估。

数据集。

摘要数据集的收集越来越多，包括捕获细粒度和更具体的摘要功能（例如，摘要多个文档或以用户查询为条件）的数据集。Bommasani和Cardie（2020）表明，摘要数据集在几个轴上存在显著的多样性，这使得选择几个数据集来表示摘要相当具有挑战性。由于我们对这项工作中的模型忠实性特别感兴趣（因为这是其他神经方法总结的已知失败模式），我们选择了CNN/DailyMail（Hermann et al.，2015a）和XSUM（Narayan et al.，2018）数据集，这是文献中关于总结忠实性研究最深入的数据集。这也确保了新闻类型数据的域覆盖。重要的是，这些数据集在摘要研究的中心轴上有所不同：XSUM是一个具有大量抽象参考摘要的数据集（这意味着文档及其摘要在数据集中的字符串重叠平均相对较小），而CNN/DailyMail是一个具有大量抽象参考总结的数据集。然而，这些数据集不足以代表摘要的全部多样性，我们鼓励未来的工作沿着这一轴线扩展我们的基准（例如，添加来自新闻以外领域的数据集），特别是针对对摘要有更大需求的领域（见Reiter，2022）。我们特别强调，这两个数据集一直是批评的主题，在摘要和自然语言生成中，数据集和评估设计需要更广泛的改变（Gehrmann et al.，2022b；Reiter，2022）。

3.6情绪分析

情绪分析是NLP中的一项标志性任务（见Jurafsky和Martin，2000，§4），它导致了金融、健康、社交媒体的广泛部署，并在许多行业应用于与产品和服务的客户评论相关的领域（Pang和Lee，2008）。自Turny（2002）和Pang等人（2002）推广以来，情绪分析已经发展成为该领域的一个分支，许多作品从最初的二进制文本分类框架扩展和深化了对情绪的研究（Wiebe等人，2005；McAuley等人，2012；Socher等人，2013；Nakov等人，2016；Potts等人，2021）。

设置问题。

给定一个输入序列（例如，“Caddyshack II对caddysack没有公正的评价。情节单薄……电影应该在剧本编写时被销毁。”），情绪分析的目标是预测情绪标签（“负面”）。图14提供了一个示例。

数据集和选择过程。

为了进行情绪分析，提出了大量数据集，包括近年来越来越精细和复杂的数据集（参见Potts等人，2021）。其中，由于实施场景的工程资源，仅出于实际原因，我们选择只包括一个情绪分析数据集。在可用的情绪分析数据集中，我们选择了IMDB数据集（Maas et al.，2011），因为它具有对比度集（）的独特资源，可以测量对等方差的鲁棒性（我们发现很难用其他方法测量）。IMDB是根据IMDB电影评论构建的，用户对电影的评分为1-10。这些评级被离散到二元空间，得分最多为4分的评论被标记为负面，得分至少为7分的评论则被标记为正面。正如Potts等人（2021）所讨论的那样，我们强调情绪分析更加多样化，也可能更加复杂：我们鼓励未来的工作沿着这一轴扩展我们的基准（例如，从积极部署情绪分析的领域添加数据集）。

3.7毒性检测

毒性检测（以及仇恨言论和辱骂性语言检测的相关任务）是识别输入数据何时包含毒性内容的任务，这源于互联网上对内容审核的需要（Schmidt和Wiegand，2017；Rauh等人，2022）。有毒内容的自动检测对Meta、Twitter和Reddit等大公司和社交媒体平台的内容审核政策越来越重要，包括最近以语言模型为中心的部署。42然而，任务的框架和任务自动化系统的部署一直是激烈辩论的主题：对任务的批评指出：（i）毒性研究过于简化，脱离了用例（Diaz等人，2022年），（ii）标准数据集通常缺乏足够的上下文来做出可靠的判断（Pavlopoulos等人，2020年；Hovy和Yang，2021），以及（iii）毒性的构建取决于注释者（Sap等人，2019a；Gordon等人，2022）。归根结底，毒性的具体定义可能对社会群体成员身份以及社会地位和特权的概念敏感，因此其解释会对边缘化群体的成员造成不成比例的影响（Welbl等人，2021）。

我们强调，毒性检测的风险是尽可能高的。由于毒性检测失败而导致的内容审核失败导致了严重的侵犯人权行为（如缅甸罗兴亚种族灭绝）（Stecklow，2018）（BSR，2018）和理事会，2018），并使世界各地的民主国家面临压力（per，2020）。其中一些失败归因于在出现种族冲突风险的国家和社区缺乏具有足够语言和文化能力的人类调解人。鉴于语言模型在机器学习领域并不占主导地位的语言中的表现不佳，人们有理由担心自动调节可能会加剧这一问题。

设置问题。

与情绪分析类似，对于毒性检测，我们考虑二元分类问题，即确定输入序列（例如“Russ Newell请告诉我K12教育在哪里被‘摧毁’了。简直荒谬。”）是否有毒。我们直接要求模型通过提示“问题：上面的段落有毒吗？”来确定文本是否有毒，我们使用术语“有毒”来匹配用于标记数据的分类类别。图15中提供了一个示例。

数据集和选择过程。

近年来，出现了越来越多的毒性检测数据集。其中，我们从WILDS基准（Koh等人，2021）中选择CivilComments数据集（Borkan等人，2019b）。具体而言，当与其他可比较的毒性检测数据集相比时，该数据集包括文本中提到的数据主体（以及毒性接受者）的元数据注释。这使我们能够衡量几个人口群体和类别的表现差异，而这在其他方面是困难的，考虑到毒性的主观性质，这一点尤为重要（Sap等人，2019a；Gordon等人，2022）。CivilComments在2015-2017年间使用来自Civil comments平台的评论，评论来自世界各地的50个英语新闻网站。

3.8其他文本分类

文本分类是指为输入序列（如句子、文档）分配标签的NLP任务家族。文本分类在NLP\citep中有着悠久的历史[见][]{yang1997comparative，yang1999evaluation，joachims1998svm，aggarwal2012survey}，语言识别、情感分析、主题分类和毒性检测等任务是该家族中最突出的任务之一。然而，除了这些突出的任务之外，整个社会还有一长串不断增长的带有用例的杂项文本分类任务。\脚注｛请参阅\url{https://openai.com/blog/gpt-3-apps/}.} 虽然并非所有这些任务都在学术界确立了传统和文献，但我们预计这些任务包括评估语言模型实用性的一类重要评估。

问题设置

根据情绪分析，输入将是一个文本序列（例如“查询：我提取了现金，我认为汇率是错误的。”），输出将是模型预计直接预测的分类标签（“提取现金的错误汇率”）。与情绪分析和毒性检测不同，由于任务不一定对应于一个术语，而且可能更复杂（例如对银行客户服务查询进行分类），我们提供了指定任务的进一步说明（例如识别文本是银行客户服务问题，模型应将其分类为提供的77个类别之一）。reffig｛misc text classification｝中提供了一个示例。

数据集和选择过程

与其他任务不同，本质上是通过构造，几乎不可能枚举，更不用说表示所有有用的非标准文本分类任务了。因此，我们转向\raft~\citep｛alex2021raft｝，它是11个具有实际应用的生态有效任务的集合：不良药物影响检测（ADE）、银行客户服务查询分类（Banking77）、NeurIPS影响声明中的有害应用检测（NeurIPS）、成人英语水平分类（OneStopEnglish），检测法律声明中的否决（否决），半导体组织的机构分类（半导体），提前通过慈善捐赠筛选的论文分类（SystematicReview），变革性人工智能研究分类（TAI），不公平服务条款检测（ToS），推特仇恨言论检测（TweetValHate），以及Tweets中的投诉检测（TweetCmplaints）。通过设计，\raft~中的这些任务是自然发生的，这有助于识别可能部署语言模型的用例。由于完整测试集的标签是私有的，因此我们保留公共训练集的子集进行评估。

HELM：语言模型的整体评估（一）

推荐阅读更多精彩内容