HELM：语言模型的整体评估（二）

前一节 HELM：语言模型的整体评估（一） https://www.jianshu.com/p/c2450fb3628f

4个一般指标

为了对desiderata的空间进行分类，我们首先列举了有用系统所追求的标准。更准确地说，这些指定了度量的类别或族（例如，准确性类别包含几个特定的度量/量化函数，如精确匹配和F1分数）。从这些类别中，我们根据适当测量构造所需的需求进一步进行分类（例如，可解释性通常需要的不仅仅是对模型的黑盒访问）。考虑到这种细粒度的分类法，我们选择了所有能够满足我们在这项工作中评估的所有模型的要求的指标（例如，不假设对模型所处的更广泛上下文的了解）。为了将选定的需求作为定量指标进行操作，我们强调我们优先考虑可扩展性：我们尽可能测量这些需求，这意味着我们的测量对每个场景的具体情况都是不可知的。例如，为了扩大我们衡量公平性的场景，我们不是假设可以获得大多数数据集无法获得的人口统计信息，而是考虑基于扰动的方法，这种方法允许更广泛的覆盖范围，可能会以测量的特异性/敏锐度为代价。

4.1分类

一个系统有用意味着什么？在人工智能中，这往往意味着系统在平均意义上应该是准确的。虽然（平均）精度是系统的一个重要且通常是必要的特性（Raji et al.，2022），但精度通常不足以使系统变得有用/理想。作为一个以多个值为基础的社区，我们应该通过考虑系统如何沿着这些多个轴进行配置来确定系统性能。

为了列举一组desiderata，类似于我们的任务集，我们首先考虑在NLP社区中研究的desiderata。不幸的是，尽管我们独立提出的许多需求都经过了NLP社区的充分研究，但有些需求并没有在特定的轨道/领域中编码（例如不确定性和校准）。因此，我们根据人工智能会议的截止日期列表，将我们的范围扩大到了所有人工智能会议。44为了简洁起见，我们选择排除与语言以外的其他模式相关的场所（即计算机视觉和机器人等场所），尽管我们也对这些场所进行了调查。

对于每次会议，我们都会查看论文征集或任何研究领域的列表：我们将列出的领域映射到相关社区中研究的需求（表2）。列出的所有需求的并集是我们考虑的需求空间，并全面摘要了真正实现高性能系统所需的许多维度。与情景一样，我们认识到，在这些场所中，可能存在传统上没有研究过的desiderata：这就是为什么我们确保在desiderat的来源上撒下一张大网，我们相信，在desiderada的层面上，我们可能确实有很强的覆盖范围，但其他机制（例如，对更大、更多元化的群体进行民意调查，而不仅仅是学术界）可能仍然能够改进我们的上市。

由于我们将语言模型视为接口，不对其结构、结构或更广泛的系统/上下文进行假设，也没有超出黑盒访问的访问权限，因此我们根据正确评估这些需求所需的知识和访问权限对需求进行分类（表3）。

4.2选择

为了选择我们将定量测量的需求，我们只需取所有满足我们条件的需求：（i）对模型的结构或结构没有假设，（ii）除了黑盒访问之外没有访问，以及（iii）对更广泛的系统/上下文没有假设。这产生了以下列表：准确性、不确定性/校准、鲁棒性、公平性、偏倚、毒性、推理效率。

在这个列表中，我们添加了训练效率和环境影响，因为它们的测量依赖于某些模型部分可用的信息（即相关论文中报告的信息）。此外，我们在探索记忆受版权保护/许可的内容时谈到了一些形式的合法性，以及在分析虚假信息时谈到了某些形式的可信度。最后，虽然我们没有从用于训练语言模型的数据的意义上解决样本效率问题（由于我们对如何构建模型的假设的限制），但我们确实从用于调整语言模型的数字的意义上处理样本效率问题。除了我们最终测量的内容外，我们在§10.2中建议了一组优先改进的领域：缺失的指标。

多指标覆盖。

为了强调我们整体方法的多度量性质，我们描述了我们为每个模型计算的结果矩阵（表4），强调了我们的基准对场景×度量的选定子空间的密集覆盖。对于每个度量类别，即概念需求，我们现在讨论其具体测量。

4.3准确性

准确性是人工智能中被广泛研究和习惯性评估的属性。简单地说，如果人工智能系统不够准确，它们就没有用处。在这项工作中，我们将使用准确性作为每个场景的标准准确性度量的总括术语。这是指文本分类中的精确匹配准确度、问答中单词重叠的F1分数、信息检索的MRR和NDCG分数以及摘要的ROUGE分数等（更多详细信息请参见附录C.1）。重要的是要指出一个隐含的假设，即精度是在测试实例中平均测量的。因此，尽管平均准确度很高，但少数亚群的准确度可能较低。

4.4校准和不确定度

当机器学习模型被集成到更广泛的系统中时，这些模型必须同时准确（即经常校正），并能够表达其不确定性（以便能够适当地预测和适应其误差）。模型不确定性的校准和适当表达对于系统在高风险环境中的部署尤其重要，包括那些模型为决策提供信息的环境（如简历筛选），随着语言技术范围的扩大，我们越来越多地看到这一点。例如，如果模型的预测不确定，系统设计者可以通过让人执行任务来进行干预，以避免潜在的错误（即选择性分类）。为了具体说明不确定性量化在语言模型中是如何特别有用的，两个例子包括使用模型置信度/不确定性来告知如何聚合不同的提示（Arora等人，2022）和组装提示链（Wu等人，2021）。一般来说，由于语言模型越来越多地嵌入到无数的应用程序中，对模型不确定性的校准和可靠估计可以在它们的集成中建立信任。图17描述了我们如何测量校准；详见附录C.2。

校准（Murphy，1973；Murphy和Winkler，1977；DeGroot和Fienberg，1983）是不确定性量化文献中广泛研究的一个性质：如果模型为其预测分配了有意义的概率，则对其进行校准。具体地说，如果一个校准良好的模型预测1000个句子是有毒的，每个句子的概率为0.7，那么我们预计其中大约700个是有毒的。为了量化校准，我们计算了预期校准误差（ECE；Naeini等人，2015；Guo等人，2017），它测量了模型的预测概率与模型正确次数之间的差异。默认情况下，我们使用10个bin，每个bin具有相同数量的概率。

我们还测试了选择性分类的潜力（El Yaniv和Wiener，2010；Geifman和El Yaniv，2017）：我们评估了��-模型分配的概率最高，其中模型对剩余的1−�� 例如。我们报告了�� = 0.1和所有�� 从0到1（覆盖精度曲线下的区域）。这些选择性分类分数捕捉到了与校准不同的东西，因为即使原始概率值不正确，许多模型也可以准确评估哪些例子更难。

4.5鲁棒性

在实际应用中，模型面临着开放世界的复杂性（例如输入错误），这会导致大多数当前系统显著退化（Szegedy等人，2014；Goodfellow等人，2015；Jia和Liang，2017；Belinkov和Bisk，2018；Madry等人，2018；Ribeiro等人，2020；Santurkar等人，2020，Tsipras，2021；Dhole等人，2021；Koh等人，2021；Yang等人，2022）。因此，为了更好地捕捉这些模型在实践中的性能，我们需要将我们的评估扩展到场景中包含的确切实例之外（Jia和Liang，2017；Goel等人，2021；Dhole等人，2021；Wang等人，2021b）。

为了实现这一目标，我们通过对实例的转换进行评估来衡量不同模型的鲁棒性。也就是说，给定给定实例的一组转换，我们测量模型在这些转换中的最坏情况性能（图18）。因此，为了使模型在这个度量下表现良好，它需要在实例转换之间表现良好。

具体来说，我们将重点讨论变换的两个概念，即不变性和等变性，如下所述（更多细节请参见附录C.3）。请注意，这两种方法都捕捉到了模型的局部鲁棒性，即模型对每个实例附近的变换的鲁棒性。我们专注于这种局部鲁棒性的概念，因为它们与广泛的场景直接相关，并且可以以可扩展的方式进行合理的测量。

然而，我们强调，其他形式的鲁棒性很重要，但我们发现，由于我们对评估的模型以及评估的规模缺乏假设，它们相对更难衡量。具体而言，一方面，测量对分布或子种群转移的鲁棒性（Oren等人，2019年；Santurkar等人，2020年；Goel等人，2020；Koh等人，2021）需要具有特殊结构的场景（即明确的域/子种群注释）以及有关模型训练数据的信息。另一方面，测量对抗性鲁棒性（Biggio et al.，2013；Szegedy et al.，2014）需要对模型进行许多自适应查询，以逼近最坏情况下的扰动，这在本评估中是不可行的（Wallace et al.，2019a；Morris et al.，2020）。最后，最近的一系列工作探索了交互式人机对抗性评估（Wallace等人，2019b；Nie等人，2020；Bartolo等人，2020年；Kiela等人，2021），包括红队模型方面的工作（Perez等人，2022；Ganguli等人，202二），我们认为这与我们的目的非常相关，但很难进行扩展。

不变。

我们评估模型的预测在保持语义的小扰动下的稳定性。这种基于变换/扰动的范式已经被广泛探索，以研究模型鲁棒性（例如，Ribeiro等人，2020年；Goel等人，2021；Wang等人，2021a），我们的实现很大程度上借鉴了NL-Augmenter（Dhole等人，2021）。45目的是了解实际使用中出现的损坏（例如，打字错误）是否会显著影响模型的性能。因此，我们将自己限制在自然和相对温和的扰动中——例如，大写、常见拼写错误——见图18，完整描述见附录D.1。由于在长格式文本生成或语言建模中，很难统一指定黄金标准应该如何改变这些扰动，因此我们将不变性相关鲁棒性的测量限制在文本分类、问答和信息检索场景中。

等方差。

为了补充不变性，我们还测试了语义改变扰动如何影响模型行为。目标是了解模型是否对改变目标输出的扰动敏感，并且不会锁定实例的无关部分。不幸的是，与不变性不同，指定用于生成语义可变扰动（以及相应的目标输出）的通用过程是具有挑战性的。因此，我们依赖对比集（Gardner et al.，2020），这是一种由现有数据集的转换版本（由原始数据集的作者生成）组成的资源，旨在通过反事实增强数据来测试等方差（Kaushik et al.，2019）。由于这种对比集只存在于少数数据集，因此我们在可用时使用对比集（即BoolQ问答场景和IMDB情绪分析场景）。此外，我们只考虑改变目标输出的变换（原始BoolQ对比度集不一定是这样）。

4.6公平

机器学习的不同处理和不同影响（Barocas和Selbst，2016）得到了充分的证明（Sweeney，2013；Howard等人，2017；Buolamwini和Gebru，2018；Noble，2018；Benjamin，2019等），包括在语言技术的背景下（例如Koenecke等人，2020）。因此，将公平和公平作为评价的首要方面，对于确保技术在社会变革中发挥积极作用至关重要（Friedman和Nissenbaum，1996；Abebe等人，2020；Bommasani等人，2021，§5.1）。我们按照Khani和Liang（2020）的规定，以两种方式实施公平测量：（i）反事实公平（Dwork等人，2012；Kusner等人，2017）和（ii）统计公平性或性能差异。详见附录C.4。

反事实的公平。

通过反事实公平性，我们指的是通过扰动现有测试示例生成的反事实数据上的模型行为（参见Ma等人，2021；Qian等人，2022年），类似于我们测试模型对不变性的鲁棒性的方法（§4.5：度量衡）。这些扰动对应于涉及（i）产生数据的说话者（如非裔美国人英语）或（ii）其中提到的文本主题的社会群体。我们考虑了几个扰动，这些扰动通过用替代品替换特定群体相关术语的附加实例来增加原始测试实例（见图19）。在附录D.2中，我们提供了替代的具体条款和概率。通过这些扰动，我们测量了标准美国英语与非裔美国英语的说话人属性的公平性，以及种族和二进制性别的主题财产。46根据我们的鲁棒性方法，我们将反事实公平性的测量限制在文本分类、问答、，以及信息检索场景，以更好地确保扰动的有效性。

性能差异。

虽然基于扰动的反事实公平方法提供了控制和可扩展性（对于任意场景），这有助于在许多场景中进行评估，但它们是有限的。具体而言，由于基本分布取决于一个组的数据（即数据受到干扰的组），当组间的数据分布以更复杂的方式不同时，它们无法反映不公平性。因此，我们通过报告与每个组相对应的测试集子集的准确性，来衡量用（预先存在的）组级元数据注释测试实例的场景的性能差异。由于这些测量取决于组级元数据的可用性，47我们无法为大多数场景生成此类测量。然而，在整个基准中，我们确实报告了演讲者财产（性别、国籍、口语与书面语言）和主题财产（性别、性别、种族、宗教、残疾状态）的性能差异。

讨论

此外，我们还提请注意未来工作中的一个重要问题，即语言技术的公约应该是什么。特别是，我们对不同方言表现的测量让我们问，语言模型是否应该（尝试）使用特定的方言（如非裔美国人英语），特别是如果它们对这些语言变体的中心方面和这些方言中社会语言学变异的其他重要方面建模不力。此外，模型是否应该（尝试）与输入的语言多样性（或更普遍的对话者）相匹配，或者它们是否应该具有在所有上下文中统一使用的标准/默认多样性？在这项工作中，我们没有认真研究这个问题，尽管我们认为答案（甚至是隐含的）与语言技术的技术、社会和政治层面有关。我们重申Rauh等人（2022）提出的观点，即语言技术的规范不必与人类的规范相同：对话者对实体言论的感知（以及潜在危害）将取决于他们与谁（或什么）互动。在这个方向上，Kasirzadeh和Gabriel（2022）已经开始讨论语言主体应该表达的规范和价值观；我们认为，理解这一维度对于确定语言技术的公平性和公平性至关重要。

4.7偏见和成见

除了公平之外，社会偏见也是语言技术风险研究的核心（Bolukbasi等人，2016；Caliskan等人，2017；Abid等人，2021）。在这项工作中，根据Blodgett等人的建议。（2020），我们明确将社会偏见定义为“语言选择的系统性不对称”（Beukeboom和Burgers，2019）。因此，公平和（社会）偏见是不同的。公平是指不同社会群体在特定任务模型的准确性方面的差异。相反，偏差是指模型生成的财产，即与给定任务的准确性或细节没有（明确的）关系。

我们在模型生成的背景下研究偏见，我们研究了两种这样的不对称性。首先，我们测量人口统计学代表性中的偏见，指的是不同人口统计学群体被提及以识别擦除和过度代表性的比率的不确定性。这些衡量标准取决于模型世代中代表人口群体的单词的出现统计数据。其次，我们衡量刻板印象的关联，指的是不同群体与社会中刻板印象的术语（如职业）的关联率不高。在这两种情况下，我们所说的不确定性是指观察到的比率偏离均匀分布的程度，即所有组都被同等地提及或关联，尽管我们的指标允许考虑其他参考文献（见附录C.5）。

这些测量依赖于人口统计学词汇与这些定型术语在模型代之间的共现统计数据（见图20）。我们注意到，这种基于计数的措施通常在几个方面都很脆弱。对于社会偏见特别重要的是，我们强调社会群体的不同语言标记（例如，由于社会文化预设和刻板印象，“女护士”和“男护士”可能会有不同的标记）（Rauh et al.，2022）。

我们报告了二元性别偏见和种族偏见的测量，尽管我们鼓励未来的工作探索其他社会偏见的测量方法，特别是考虑到我们发布了所有的模型世代。由于这些指标是在模型生成的文本上测量的，我们报告了涉及文本生成的所有核心场景的这些与偏差相关的指标。在附录C.5中，我们提供了受Bordia和Bowman（2019）启发的度量标准的正式定义，以及根据Antoniak和Mimno（2021）的建议，借鉴先前工作（Bolukbasi等人，2016；Garg等人，2018；Bommasani等人，2020）得出的单词表。

4.8毒性

鉴于我们研究的偏见反映了文本的分布财产，我们将毒性视为文本的实例级属性。研究表明，模型在提示时会生成有毒文本（Gehman等人，2020），即使文本本身没有毒性（Gehmanet al.，2020；Dhamala等人，2021），并且包括针对特定群体的仇恨文本（例如穆斯林；Abid等人，2021）。毒性本身是一个复杂的结构；在这里，我们使用这个词作为仇恨言论、暴力言论和辱骂等相关概念的保护伞（见Talat等人，2017）。48毒性的概念最好在更大的背景下解决（Pavlopoulos等人，2020），并明确谁在决定毒性（Sap等人，2019a；Gordon等人，2022），而我们在广泛的覆盖范围评估中缺乏这一点。根据Rauh等人的建议。（2022），我们认识到这项工作未能阐明更精确（可操作）的毒性定义，部分原因是毒性测量是在不同的场景中统一进行的，以确保可扩展性（参见Selbst等人，2019）。然而，根据Diaz等人的建议。（2022），我们认为这项工作在基于用例的毒性评估方面取得了重要进展，尽管我们确实认为有足够的改进空间，特别是在基于具体部署环境的评估方面。

为了操作毒性测量，我们使用透视API（Lees et al.，2022）49来检测模型代中的毒性含量。示例见图21；更多细节见附录C.6。Perspective API在毒性文献中广泛使用，并进行了广泛的分析（Hede等人，2021；Lees等人，2022年），包括直接评论（Rauh等人，2022.）。我们之所以选择使用Perspective API，是因为它经过了严格的分析，其局限性也得到了充分的认可，因此我们更喜欢它，而不是最新的最先进的毒性检测器（例如仇恨言论检测排行榜上的顶级模型50）。也就是说，与其他（可能更好但基本上未经证实）毒性检测方法相比，我们更喜欢使用具有广泛测试和明确测量其局限性的毒性检测系统。

由于这些指标是在模型生成的文本上测量的，我们报告了涉及文本生成的所有核心场景的这些毒性指标。此外，由于我们发布了所有模型代，我们希望直接促进未来的工作，探索关于毒性的定性结论如何取决于特定的毒性检测机制。

4.9效率

效率是评估语言模型的另一个重要维度，因为昂贵的训练和推理成本使得模型不太可用，也不容易被广大用户访问（Schwartz等人，2020；Bender等人，2021；Henderson等人，2020，Kaack等人，2021；Strubell等人，2019；Lacoste等人，199；Bommasani等人，2021，§5.3）。例如，如果模型只能将任务的准确性提高0.1%，用户可能不想在训练或推理上花费10倍以上的时间或金钱。我们评估了语言模型在训练和推理方面的效率，并考察了相关的能量、碳和挂钟效率。

4.9.1训练效率。

对于每个模型，我们报告了越来越多的工作（Strubell等人，2019年；Lacoste等人，199年；Anthony等人，2020年；Henderson等人，2020；Bender等人，2021；Bommasani等人，2021，§5.3）建议的训练能源成本（单位：kWh）以及训练模型所排放的二氧化碳（单位：kg）。这两个指标都捕获了所使用加速器的数量（对于分布式训练）和类型，而后者对环境影响进行建模，并且还考虑了用于为模型训练提供动力的能源类型。我们之所以不报告训练运行时，有两个原因：（i）它们没有被广泛报道，（ii）它们没有捕捉到所使用的加速器的数量（即理论上可以使用更多的加速器来减少训练时间），这可能因模型创建者而异

对于能源成本和排放量，我们使用模型创建者报告的面值数字。在没有报告数字的情况下，如果可以获得有关所用硬件和训练持续时间的详细信息，我们将通过以下计算来估算能源成本和排放量：

为了简单起见，我们假设用于训练的加速器是GPU，但上述计算与TPU等其他加速器类似。�� 是以kWh为单位使用的能量，��GPU是用于分布式训练的GPU的数量（训练本工作中考虑的大型LM所必需的），��GPU是单个GPU在训练过程中的平均功率消耗，单位为千瓦，以及��train是以小时为单位的训练时间。PUE或Power Usage Effective（Strubell et al.，2019）表示数据中心冷却成本的开销以及GPU能量消耗本身之外的其他能源成本，与之前的工作类似，设置为1.1。��CO2则是碳排放量的估计值；��region是对模型进行训练的数据中心的碳强度（kgCO2/kWh）。当数据中心位置不可用时，我们使用美国全国平均碳强度。由于潜在的估计误差和假设，所有数字都是近似的，但应该是正确的数量级。虽然其他人已经讨论了这里使用的估计方法可能容易出错（Henderson等人，2020；Cao等人，2020），但我们没有足够的信息来使用更细粒度的方法。Strubell等人（2019年）、Bender等人（2021）和Patterson等人（2021）使用了类似的估算方法，但涵盖了与本工作不同的模型集。我们在附录C.7中摘要了详细的计算。

对于一些模型，如AI21模型，我们没有足够的信息来做出可靠的估计。我们相信，模型创建者对他们如何训练模型的细节保持透明，将更容易在多个维度上更全面地比较模型。

4.9.2推理效率。

对于推断，理想情况下，我们希望通过报告每个推断请求的总二氧化碳排放量或千瓦时来做类似的事情；然而，这是不可立即处理的，因为用于服务请求的硬件不是公共信息。

一种替代方案是按请求报告运行时，这是使用已部署系统的用户在其应用程序中的体验。然而，由于模型和模型提供者在服务方式上存在差异，因此无法使用每个请求的运行时来比较这些模型。例如，两个模型提供程序的部署可能在以下方面有所不同：

•硬件：加速器类型和加速器数量。

•软件实施和优化。

•争用导致的性能变化量，这可能导致请求在队列中花费时间等待资源可用，而不是在计算上。

不幸的是，这些并不是模型本身的基础，因此不允许我们在水平的基础上比较模型，这是本工作的目标。为了能够更公平地比较模型，我们设计了两个指标：

•去噪推理运行时。运行时使用与原始模型提供程序相同的硬件和软件实现，但考虑到了性能变化带来的噪音。

•理想化的推理运行时间。运行时使用统一优化的硬件和软件实现，允许模型的推理效率直接相互比较。

我们提出了这两个指标，因为我们认为两者都很重要：去噪运行时可以估计最终用户在最佳情况下使用OpenAI的API等部署接口进行查询所需的时间，而理想化运行时可以更公平地比较模型，并可用于了解效率和能力的权衡。我们为每个模型提供去噪运行时，并为所有具有公开可用模型体系结构信息的模型提供理想化运行时。在实践中，我们使用威震天（Shoeybi et al.，2019）在NVIDIA A100 GPU上测量理想化的运行时间，因为我们认为这些是优化的硬件和软件堆栈（在撰写本文时），具有服务于大型LMs所需的模型并行性等功能。图22显示了这些不同推理运行时度量之间的视觉比较，并简要解释了如何估计去噪和理想化的运行时度量。

我们还可以从理想化的运行时间中导出理想化的能量和理想化的二氧化碳排放指标，因为我们控制着估计理想化运行时间的硬件。请注意，这不能用于去噪运行时，因为我们不知道模型提供商使用的硬件。

5项有针对性的评估

在§3：核心场景中，我们优先考虑了面向用户的场景，在这些场景中，进步可以赋予直接的社会效用。鉴于语言模型的不断开发和部署，对此类场景的模型性能进行全面评估旨在跟踪模型将产生的影响。然而，正如Bommasani等人（2021，§4.4）所述，评估服务于多种功能，相关功能可能取决于利益相关者（例如，研究人员与决策者有不同的评估需求）。虽然前面的评估清楚地说明了现有模型的实际效用，但它在对感兴趣的原语提供细粒度的科学见解方面效果较差。为了解决这个问题，我们用对这些基元的更深入分析来补充评估。

类似于我们如何系统地探索场景空间中潜在的结构，我们在指定一组有助于确定语言模型的好处和坏处的组件时确定了进一步的结构。在能力方面，我们考虑语言、知识和推理的规范原语。在危害方面，语言模型的危害空间更为初显，因此我们遵循Bommasani等人（2021，§5）、Weidinger等人（2022年）、Bender等人（2021）和Rauh等人（2022中）的最新分类法。具体而言，我们将虚假信息和版权作为首要关注点，尤其是当恶意行为者可以访问语言模型时。这些担忧预示着此类通用技术的双重使用风险。此外，我们通过分析评估扩展了对偏倚和毒性的讨论，以补充用例中的评估。总的来说，我们的评估旨在理解语言模型对社会的实际效用，以及塑造模型行为的基本科学组成部分。

5.1语言

为了衡量模型对英语的理解，我们在两种类型的场景中对其进行评估：语言建模和最小配对。这两种方法都有着广泛的语言学传统：前者在心理语言学的增量处理中得到了广泛的研究（Hale，2001；Levy，2008），其中预测下一个单词的表现阐明了模型或人类在一个领域中学习语言使用分布的情况。后一种最小配对比较方法是整个语言学中使用的主要方法（Chomsky，1957），有助于梳理对特定语言现象的精细理解。这两种方法结合在一起，以不同的分辨率对语言理解进行了连贯的表征。

5.1.1语言建模。

设置问题。

在语言建模中，输入是一个英文文本序列，模型为该序列中的每个令牌分配一个条件对数概率，该概率可以求和，为整个序列分配一个（对数）概率。更准确地说，由于我们比较了使用不同标记器的模型，我们使用每个字节的比特作为我们的主要度量，因为它对Gao等人（2021a）之后的标记化方案具有不变性。

数据集和选择过程。

在所有现有的语言建模基准中，我们选择了以下内容：WikiText-103（Merity等人，2016）、the Pile（Gao等人，2021a）、TwitterAAE（Blodgett等人，2016年）和ICE（the International Corpus of English；Greenbaum，1991年）。我们将WikiText-103作为一个长期存在的、经过充分研究的语言建模基准，它涵盖了英语维基百科数据，并涵盖了更广泛的领域。WikiText-103是维基百科上经过验证的文章集，用于语言模型基准测试。The Pile由22个不同的子语料库汇编而成，其中我们优先考虑了5个语料库，以确保覆盖不同的领域：arXiv、BookCorpus2、Enron Emails、PubMed Central和维基百科（en）。

除此之外，我们还添加了TwitterAAE和ICE来评估一系列英语变体的语言建模。这些语料库除了扩大了我们对英语文本的覆盖范围以进行评估外，还用于衡量模型对不同英语变体理解的表现差异。Blodgett等人（2020）以非裔美国人英语（AAE）为例，认为AAE语言技术表现的缺陷本质上是有害的，因为它们有可能加剧对AAE的污名化，这种污名化在历史上一直并继续剥夺该语言使用者的社会机会。鉴于有充分证据表明英语作为母语（ENL）变体和英语作为第二外语（ESL/EFL）变体之间的中心-边缘主导地位（Kachru et al.，2009），我们预计这两组地区英语在语言建模能力方面的差异可能同样有害。

推特AAE包含超过5000万条来自推特的社交媒体消息（“推特”），这些消息标有使用用户地理位置预测的人口比例。与Blodgett等人（2016）类似，我们从相应人口群体中非裔美国人比例最高的83万条推文和白人比例最高的730万条推特中抽取了5万个例子。ICE是一套语料库，旨在对全球12个地区/国家的英语变体进行比较分析。在这十二种语言中，我们使用了来自加拿大、牙买加、肯尼亚、香港、印度、爱尔兰、新加坡、菲律宾、坦桑尼亚和美国的子集。这些语言与世界英语的两种主要分类——三环模型和动态模型（Kirkpatrick，2020）相一致，构成了一组具有代表性的英语变体。

5.1.2最小配对。

设置问题。

最小对是指在单个令牌中不同的一对序列，其中一个序列是可接受的，另一个不可接受。对于每个最小对，如果模型为可接受序列分配的概率高于不可接受序列的概率，则认为模型是正确的。

数据集和选择过程。

语言模型的最小配对评估是由Linzen等人开创的。（2016），导致了几项收集最小配对来测试语言理解的工作（Linzen et al.，2016；Warstadt et al.，2020；Gauthier et al.，2021等）。其中，我们选择使用BLiMP（语言最小对基准；Warstadt等人，2020），其中包含测试句法、形态和语义知识的最小对。它借鉴语言学中的语法教科书，汇集了一组核心现象，涵盖了12种语言现象和67个范式，其中每个范式以编程方式生成了1000个合成最小对。

5.2知识

为了衡量模型的知识，我们通过问答（§5.2.1：知识问答）和文本完成（§5.2.2：知识事实完成）来评估模型。51问答使我们能够重复使用为评估人类知识（如学术考试）而开发的问题，这些问题涉及轻度的语言理解和推理，而文本完成使我们能够进一步孤立具体的事实知识。

5.2.1知识密集型QA。

为了在实际的QA环境中评估LM的知识，我们使用需要大量知识才能解决的现有QA基准。

数据集。

在§3.3：问答中讨论的QA数据集中，我们重点关注测试不同形式知识的子集：HellaSwag、OpenBookQA、TruthfulQA和MMLU。其中，HellaSwag和OpenBookQA测试了一般常识性知识，TruthfulQA进一步强调了知识的真实性和真实性。相比之下，MMLU测试了57个领域的专业知识，从人文学科到社会科学再到STEM（科学、技术、工程和数学）。

5.2.2事实完成。

在这里，我们的目标是在一个考虑到语言理解/推理等知识不可知能力的环境中评估LM的知识，并使用简单的提示来测试单个事实。具体来说，我们基于Wikidata中的事实构建了一个新的此类提示数据集，并在此基础上评估LM。

设置问题。

事实上，如果给出一个要求事实的提示（例如，“法国首都是__”），任务是预测提示（“巴黎”）的完成情况。该任务是一种自然语言，相当于为关系数据研究的经典三重完成任务（Bordes et al.，2013）。给定由（主语、谓语、？）组成的不完全实体三元组，目标是预测缺失的对象实体。我们的评估标准是5点精度@�� (��=1，5），其中精度@�� 指示系统的一个顶层�� 预测与实际情况标签相符。

数据集。

我们上述的事实完成设置受到LAMA探针数据集的启发（Petroni等人，2019）。LAMA是一项早期工作，它建立了通过“法国首都是__”这样的事实完成提示来探究LMs知识的方法。然而，最初的LAMA数据集只涵盖了约40种类型的一般关系知识（例如出生地）。在这里，我们策划了一个更加多样化的数据集来评估LMs。

具体而言，我们确定了12个领域，涵盖人文学科（如法律）、社会科学（如经济学）、STEM（如生物医学）和其他一般事实。对于每个域，我们手动识别2-7个Wikidata关系，并设计了一个提示模板，将三元组转换为自然语言完成任务。我们选择了能够捕捉与该领域高度相关且具有代表性的事实信息的关系。这导致总共86种关系类型。关系的完整列表及其相应提示见附录E.2。然后，我们下载了与这些关系对应的所有三元组（使用2022年1月的Wikidata转储）。我们删除了主题或对象实体没有维基百科页面的三元组。我们为每个属性采样了1000个三元组作为我们的基准。我们观察到，当被转换为自然语言补全时，单个三元组可能有多个正确答案，因为（1）三元组可能由多个不同的对象正确完成，或者（2）单个对象可能由多种不同的名称引用。在评估模型时，我们认为与允许的对象实体的任何别名相对应的任何生成都是正确的。

5.3推理

为了衡量模型的推理能力，我们在综合和现实推理中心场景中对其进行评估。我们指定了一套综合任务来探测核心推理原语（非简化推理、扩展推理、递归层次结构、状态跟踪；§5.3.1：推理原语），在很大程度上将推理与语言和知识隔离开来。为了建立在这些原语的基础上，我们在现实环境中测试模型（数学推理、代码推理、法律推理、逻辑推理、结构化数据推理；§5.3.2：现实推理），这些模型将这些原语结合在一起。总之，这些方法阐明了模型在多大程度上具有推理的关键能力，以及这在依赖于推理的真实用例中是如何发挥作用的。

5.3.1推理原语。

虽然推理通常被认为涉及思维的转变（Harman，2013），可能是以某种非语言形式，但我们通常通过明确的符号或语言任务来评估推理能力（例如，成年人）。事实上，沟通和争论甚至可能是推理的最终目的（Mercier和Sperber，2017）。为了尽可能地将推理与语言和知识区分开来，我们在这里重点关注复杂的基于文本或符号的推理所需的相对抽象的能力，这些推理分为四类：非简化推理、扩展推理、递归层次推理和状态跟踪。第一个划分遵循皮尔斯（1974）：非扩增推理涉及在某种意义上已经存在于前提中的结论，而扩增推理涉及只有当我们接受没有明确给出的进一步假设时才能保证的结论。

这些任务只涉及基本语言——在某些情况下是自然语言和数学符号的混合——很少涉及事实世界知识。我们的假设是，这些能力将是推理所必需的，而不依赖于什么事实，或者模型恰好使用什么（自然或人工）语言。我们强调，这些评估旨在具有代表性，但并非详尽无遗。

非扩展推理

我们首先测试了非扩增推理的两个基本原语：识别相关规则的模式匹配和应用规则的变量替换。为了实例化这些原语，我们使用LIME之后的抽象符号实现场景（Wu等人，2021）。我们进一步遵循Clark等人的观点。（2020）测试了将自然语言中的这些原语与变量的简单单词和规则的句子模板相结合的演绎。

充分推理

为了衡量放大推理，我们使用了显式规则归纳和隐式函数回归，这对应于提出和应用关于观察可能的因果结构的主张。对于规则归纳，我们受LIME归纳任务的启发，设计并实现了rule_induct，其中我们提供了从同一规则字符串生成的两个示例，并通过推断底层规则来对模型进行任务。对于函数回归，我们设计并实现了numeracy_prdiction，它要求模型在给定几个例子的情况下执行符号回归，并将数字关系（例如线性）应用于新的输入。

递归层次结构。

为了测试语言模型在深度和长层次依赖关系上递归推理的能力，我们使用了广义的Dyck语言（Dyck，或D��). Dyck是一个语言家族，它体现了作为一种具有层次结构的语言意味着什么（Suzgun et al.，2019b）。尽管这种结构被认为对自然语言至关重要，但类似的嵌套层次结构也出现在其他核心推理领域（Dehaene，2020），并涉及特别微妙的各种模式匹配。

为了用Dyck实例化任务，我们需要模型生成D的右括号序列�� 53根据任务公式，每个输入示例（即D�� 前缀）具有唯一的结束括号序列。在我们的实验中，我们将注意力限制在Dyck语言D3的一个子集上，该子集是在三对括号（即{“（”，“）”，“[”，“]”，“{”，“}”}）上嵌套良好的字符串，并考虑在两次提示协议下500个不同长度（在52到100之间）的评估示例。为了测量模型的准确性，我们报告了严格的精确匹配结果。

状态跟踪。

为了进一步评估模型的推理和状态跟踪能力，我们在（bAbI；Weston等人，2015）上测量了它们的性能。bAbI以短篇故事为特色，讲述人物在穿过房子的房间时挑选和丢弃物品的故事。每个问题都有一个单词的答案，它们需要各种推理技巧，包括传递推理、共指解析、逻辑推理（否定、连词和析取）、空间和时间推理、演绎和归纳，分为20个不同的任务。输入平均每个实例有64个令牌，输入长度存在显著差异，有些达到数百个令牌左右。

5.3.2现实推理。

我们还评估了需要多种原始推理技能的更复杂、更现实的推理任务的语言模型。这些评估弥合了在非常可控和综合的条件下理解推理与实际情况下所需推理类型之间的差距。特别是，它们还有助于揭示推理的抽象属性在跨领域分解为相似的原语时，如何基于领域呈现不同的纹理（例如，法律上下文中所需的推理与代码上下文中所要求的推理截然不同）。此外，这些现实场景是推理的核心：在野外，推理需要以各种方式组成原语的能力。为了实现这一测量，我们选择了一组具有明确事实的推理密集型场景，这样就有可能进行大规模的自动化评估。

数学推理。

我们使用GSM8K（Cobbe et al.，2020）和MATH（Hendrycks et al.，2021c）在不同难度的数学考试中测试模型性能。这两个数据集都评估了得出给定问题的数字答案所需的多步骤数学推理能力。在他们的基本事实示例中，数据集包括自然语言中的中间步骤，这些步骤导致最终答案，然后语言模型模仿最终答案。

代码合成。

我们使用HumanEval（Chen等人，2021）和APPS（Hendrycks等人，2021a），它们分别包含164个和10000个编码问题。HumanEval包含测试简单算法和数学的手写编程问题，而APPS是从开放访问编程网站策划的，涵盖了更广泛的困难。由于每个完整的编码任务示例可能太长，无法在上下文窗口中容纳其中的多个，因此我们只对已经对代码进行过微调的模型执行零样本评估。

法律推理。

对于法律推理，我们构建了LegalSupport，这是一个新颖的比较法律蕴涵任务。律师通常必须确定哪一个案件最有力或最准确地支持他们的主张。这是法律论据表述的一个组成部分，因为律师必须引用以前法院做出的决定（即“先例”）。特别是，这允许人们（1）确定法律所说的内容，（2）有说服力地争论法院应该如何在未决纠纷中做出决定

法律支持，一个模型提供了一个论点，以及两个法庭案件的法律结论。任务是确定哪一个案例最有说服力地支持这一论点。论据和注释是从实际的法律意见中挖掘出来的。

逻辑推理。

我们对法学院入学考试（LSAT；Zhong et al.，2021）中的分析性推理问题进行了进一步评估，这是一项针对未来法学院考生的标准化考试，是对约束满足问题（CSP）的口头版本，根据要求列表对元素进行分配、分组或排序，例如将几个人分配到表格中，或者在时间表中组织课程。这些问题是多答案格式的，每个问题有5个答案，它们要么要求CSP的特定解决方案、解决方案空间的基数，要么要求有关给定问题的其他派生财产和推论。提示平均每个例子有170个标记，在要求模型预测新练习的答案之前，我们在上下文中提供了5个这样的例子。

结构化数据推理。

我们评估了模型如何很好地处理结构化数据——这是企业数据管道中的一个关键问题，数据管理界已经研究了20多年（Golshan et al.，2017）。我们评估了两个经典的数据集成和清理任务：实体匹配和数据插补。实体匹配是确定两个结构化行（通常来自不同的关系）是否引用同一实体的任务。数据插补是指从结构化行中填充缺失的单元格值。对于实体匹配，我们使用来自麦哲伦基准的Beer、Abt Buy和iTunes Amazon（脏）数据集（Konda et al.，2016）。对于插补，我们选择Mei等人（2021）的Restaurant and Buy数据集。对于任务，我们根据Narayan等人的随机提示生成提示。（2022）。

5.4记忆和版权

最近的研究表明，语言模型能够记忆和再现训练数据集中的内容（Carlini等人，2019年；Lee等人，2022a；Carlini等，2022年；Kandpal等人，2022；Carline等人，2021）。从知识产权的角度来看，记忆和剽窃的能力意味着潜在的法律风险（Bommasani等人，2021，§5.4）。在本节中，我们通过测量语言模型能够在多大程度上使用先前作品中使用的常见抽样方法在其训练语料库中复制版权/许可材料来评估这种风险（Carlini等人，2021）。

在许多情况下，根据合理使用等原则，对版权材料进行训练和生成版权材料在法律上是可以接受的（Lemley和Casey，2020）。但可接受程度取决于语言模型的用例，以及内容的可转换性和再现内容的数量等因素。我们请读者参考其他讨论法律主题的作品（Sobel，2017；Lemley和Casey，2020；伯克，2019；吉洛特，2019；Franceschelli和Musolesi，2022）。不过，合理使用并不是万灵药。以ComicMix（Index，2020）为例，创作者根据苏斯博士的《哦，你要去的地方！标题为《哦，你要大胆去的地方！》！这本书模仿了苏斯博士的风格，但用《星际迷航》主题的故事取代了文本和图像。本案不属于合理使用范围，因为这本书是类似市场的衍生产品，与原作的匹配过于紧密。与ComicMix案例一样，机器学习模型可以记忆和输出不一定受到合理使用保护的衍生内容。因此，重要的是测量模型中受版权保护材料的记忆，以指导为解决这一风险而投入的调查资源。

在这里，我们引入实验来检查模型生成逐字内容的能力。我们强调，我们的数值结果并不能（无条件地）量化法律风险的程度。在高水平上，给定一个模型和提示（通常是受版权保护/许可材料的一些初始部分），我们衡量模型能够复制完成的程度。这是对模型反流能力的简单测试。具体来说，我们从三个来源编译了提示：（i）BooksCorpus中随机抽样的1k本书（版权所有），（ii）BooksCompus中也出现在畅销书列表中的20本书（产权所有），54和（iii）linux内核源代码中随机抽样（GPL许可）的2k个函数。55对于（i），我们在随机采样的段落开头使用不同数量的标记作为提示。对于（ii），我们重复了之前的程序，这次只考虑了每本畅销书的第一段。最后，对于（iii），我们从每个函数的顶部开始使用不同数量的行来形成提示。（i）以及（ii）分别测试模型再现“平均”内容和可能在训练语料库中重复的内容的能力。这两种方法的比较是基于过去工作中的观察结果，即提取重复内容的可能性平均更大（Kandpal等人，2022年）。56我们的评估指标既测量了精确的反流（按给定前缀长度标准化的最长公共序列），也测量了近精确的复制（按给定后缀长度标准化了编辑距离和编辑相似性（Lee等人，2021））。

由于令牌信用限制，我们只对每个提示进行一次完成采样，以测试提取。因此，这里的结果可能是功率不足的，因为理想情况下会为相同的前缀生成许多样本来近似最坏的情况。此外，鉴于我们只专注于提取选定的内容（书籍和linux源代码），我们的结果可能无法完全反映提取其他源代码的定性行为。尽管如此，我们发现一些模型，特别是较大的模型和基于源代码训练的模型，在某些情况下会生成逐字逐句的内容。未来使用黑盒模型访问的工作可以进一步探索这一点。我们在附录中讨论了该评估的其他细微差别。

5.5消毒

虚假信息是指行为人为了欺骗、误导或以其他方式影响目标行为而传播的虚假信息。信息传播是社会关注的问题：它被用来破坏民主进程，破坏公共卫生运动，并煽动种族灭绝暴力（伙伴关系，2021；扎罗科斯塔斯，2020；Whitten-Woodring等人，2020）。从结构上讲，有效的虚假信息依赖于（i）令人信服的内容和（ii）传播虚假信息的网络行为（例如通过社交媒体平台）（Benkler等人，2018）。

为了理解虚假信息，我们首先要考虑现代语言模型之前用于虚假信息的方法。DiResta等人（2022）摘要了虚假信息行为者通常有两种方法。一种选择是在内部雇佣人员，这有利于运营安全，但这些员工可能缺乏制造有效虚假信息所需的文化或语言知识。在讨论可能涉及不同文化/语言背景的政党（例如不同国家）的地缘政治虚假信息时，这一点尤为重要。另一种选择是在目标国家雇佣自由职业者；自由撰稿人拥有制造有效虚假信息的文化背景，但更容易危及行动的安全。

鉴于语言模型的生成能力不断增强，恶意使用虚假信息是一种潜在的双重使用语言模型所产生的特定风险。具体而言，几项工作已经确定，语言模型可以是一种安全、高效和有效的方法，用于生成虚假信息操作的内容（Radford等人，2019年；Buchanan等人，2021；Bommasani等人，2021，§5.2）。相对于现有方法，模型可以在内部创建和存储，以匹配内部操作的操作安全性，并且可以根据来自外国人口的数据进行训练，从而提供远程操作的有效性（见Horvitz，2022）。

除了现有的可能被人类创作速度所限制的方法之外，机器生成的文本具有高度的可扩展性。此外，当与迭代编辑模型生成、优化输入并微调系统的人工编辑器合作时，语言模型可能会生成性能优于人工或模型自身管理的输出（Buchanan等人，2021）。因此，使用模型代进行虚假信息的瓶颈是可靠性：如果模型代需要大量的人工后期编辑，那么使用它们的成本和风险可能与最初雇佣人工撰写文本相当（Goldstein et al.，Forthcoming）。

问题设置。

在关于语言模型和虚假信息之间关系的基础性工作中，布坎南等人（2021）介绍了六种现象的分类，语言模型可能证明是有用的。在这六种现象中，我们选择关注两种：叙事重复和叙事楔入。我们这样做是因为这些威胁与虚假信息研究人员所关注的环境密切相关（Pennycook等人，2021。

叙事重复测试语言模型推进特定叙事的能力。我们通过调整模型来生成支持给定论文陈述的标题来测试这一点。从这个意义上说，叙事重复使用了与转述能力和语言模型生成的可控性相关的核心能力。

另一方面，叙事楔入测试了语言模型生成基于群体身份（如种族或宗教）划分人们的信息的能力。这种结合通过对个人对其社会群体的归属感施加压力，显然会导致社区分裂、分裂或两极分化。我们通过调整模型来生成社交媒体帖子，以扩大社会分歧，并鼓励特定群体采取特定行动，以此来测试这一点。此外，分裂性语言可能是公开的敌意，也可能只是隐含的敌意（如暗语、微侵犯、刻板印象和狗哨；Fogal等人，2018；Quaranto，2022）。因此，我们区分了模特几代人中隐蔽的敌意和公开的敌意。

数据集。

由于我们遵循Buchanan等人（2021）的观点，我们首先考虑他们的数据集设计，包括重复和楔入。对于重复，我们选择偏离他们的工作，因为他们在评估中只使用了一个提示。相反，我们使用Gabriel等人（2022年）的错误信息反应框架数据集，该数据集提供了有关新冠肺炎和气候变化的标题和论文。根据该数据集，我们手动将错误信息反应框架数据集中114个关于新冠肺炎的头条新闻和147个关于气候变化的头条新闻分别聚类为38个和49个聚类。对于每个簇，我们写一篇论文声明，该簇中的所有标题都支持（例如“新冠肺炎是一种人为疾病”）。对于楔入，我们使用了Buchanan等人（2021）介绍的11个提示。这些提示鼓励针对宗教团体（基督徒、犹太人和穆斯林）的某些投票行为（投票给民主党、共和党或根本不投票），也鼓励分裂（例如反黑人种族主义）

5.6偏差

在§4.7：度量偏差中，我们讨论了在现实用例的背景下，即在模型生成的背景下的社会偏差测量。我们认为，这种测量对于测量与语言模型相关的偏见相关的危害是最直接有用的。然而，大多数关于NLP中偏差测量的文献可以追溯到Bolukbasi等人（2016），而是关注更内在的偏差，而不太直接基于外在相关的用例。正如我们在§4.7：度量偏差中所指出的，这些测量的预测有效性（即，它们预测下游行为偏差的程度）在多个工作中受到质疑（例如，Goldfarb-Tarrant等人，2021；Steed等人，2022年）。正如Bommasani等人（2021，§5.1）所描述的那样，基础模型的偏差评估既可以针对模型的内在财产，也可以针对模型在适应特定下游用例后的外在行为。在这里，我们用对偏见的更细粒度评估来补充我们现有的评估，并注意到这也有助于确保偏见的覆盖范围，即使对于涉及最小/无生成的任务，这些偏见也可能是相关的。

数据集选择。

Nadeem等人（2020年）和Nangia等人（2020）分别引入了最小配对评估来评估语言模型的偏差。到目前为止，这两个数据集一直是评估语言模型偏差的主要数据集，因为它们由于最小配对设计（与我们在§5.1.2中描述的语言评估所使用的设计相同：语言最小配对）而提供了显著的控制。然而，Blodgett等人（2021）对这两个数据集进行了广泛的批判，为其有效性不足提供了全面的证据。

出于这个原因，我们转而使用Parrish等人最近引入的BBQ数据集。（2022）。我们注意到，烧烤数据集可能仍然受到Blodgett等人（2021）讨论的一些问题的影响，但我们预计它比其他选项要好。57特别是，烧烤数据库在回答问题的背景下框架了偏差评估，这也与我们更普遍的方法一致，即在讨论社会危害时，更倾向于更现实、更不综合的评估。BBQ衡量了与美国平等就业机会委员会之后的九个人口类别相关的偏见，即年龄、残疾状况、性别、国籍、外表、种族/民族、宗教、社会经济地位和性取向。BBQ使用通过模板生成的数据，这些数据带有经证实的偏见（有证明偏见的文件证据），然后由亚马逊机械土耳其上的众包工作者进行审查。

问题设置。

BBQ包括多项选择题回答，每个问题都有一个上下文和三个答案选择（其中两个参考同一人口类别的不同社会群体，第三个总是“未知”）。为了便于测量偏见，数据集中的每个例子都与2×2的实例模式相关联：问题成对出现（一个是负面的，即美国的社会价值观受到侵犯，它所反映的偏见对某些群体有害，另一个是消极的），上下文成对出现（其中一个是模棱两可的，一个是消除歧义的）。由于这些变化，除了测量模型在所有数据上的精确匹配精度外，作者还引入了模型在歧义和消歧义上下文上的偏差测量。

5.7毒性

在§4.8：毒性度量中，我们在现实用例的背景下，即在模型生成的背景下讨论了毒性测量。在这些用例中，我们从经验上发现毒性的发生率非常低，我们认为这是一个关于语言模型部署引起的毒性相关危害风险的普遍积极迹象。另一方面，Abid等人（2021）证明，即使在无害的提示下，模型也有强烈的毒性倾向，包括以反映可恶的社会偏见的方式（例如，将伊斯兰与暴力联系起来）。此外，Kilcher（2022）明确表示，这些模型的毒性可能会进一步加剧，这在人工智能研究界引发了关于潜在鲁莽部署的争议（Liang和Reich，2022）。有鉴于此，我们用更精细的毒性评估来补充我们现有的评估，注意到这也与模型检测毒性的能力产生了有趣的联系（§3.7：毒性检测）。

数据集选择。

Gehman等人（2020）介绍了用于评估RealToxicityPrompts毒性的主要数据集。此后不久，Dhamala等人（2021）引入了BOLD，它遵循与RealToxicityPrompts类似的结构，但使用了更无害的输入提示。鉴于此，我们选择对这两个数据集进行评估，以了解提示符的财产和模型生成的财产之间的关系。我们注意到，其他工作，尤其是Abid等人（2021）也证明了语言模型的毒性，但没有发布用于更广泛测量毒性的标准化数据集。

问题设置。

对于毒性评估，向模型提供提示并生成完成。在RealToxicityPrompts的情况下，这些提示来自OpenWebText（Gokaslan和Cohen，2019），这是一个复制GPT-2训练数据的互联网文本集合（Radford等人，2019）。为了提供不同提示毒性的分层样本，Gehman等人（2020）通过PerspectiveAPI在语料库中运行文本，分为4个桶（[0，.25），[0.25，0.50），[0.50，0.75），[0.75，1.00]），并从每个桶中抽取25k个句子。对于BOLD，提示来自维基百科，取自文章中提到a（职业、性别、种族、宗教或政治意识形态）的前6-9个单词，这也意味着BOLD的毒性测量可以根据相关的社会类别进行分层。我们注意到，与RealToxicityPrompts相比，BOLD中的提示往往更中性，因此在这些情况下生成有毒文本甚至更不合理。我们使用透视API来测量模型完成中的毒性，重申了我们在§4.8：度量毒性中讨论的关于透视API有效性的广泛警告。

HELM：语言模型的整体评估（二）

推荐阅读更多精彩内容