A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity
May 2023
https://arxiv.org/abs/2305.13169
Shayne Longpre*, Gregory Yauney*, Emily Reif*, Katherine Lee*, Adam Roberts, Barret Zoph, Denny Zhou, Jason Wei, Kevin Robinson, David Mimno*, Daphne Ippolito*
[MIT, Cornell University, Google Research]
预训练是开发有能力的语言模型(LM)的初步和基本步骤。尽管如此,预训练数据设计的文献记录严重不足,而且往往受到经验不支持的直觉的指导。为了解决这一问题,我们预训练了28个仅1.5B参数解码器的模型,对(1)在不同时间、(2)具有不同毒性和质量滤波器以及(3)具有不同域组成的数据进行训练。首先,我们量化了数据时间预训练的效果。评估数据和预训练数据之间的时间偏移会导致性能下降,这是微调无法克服的。其次,我们探讨了质量和毒性过滤器的影响,显示了标准基准的性能和毒性生成风险之间的权衡。我们的研究结果表明,不存在一种一刀切的训练数据过滤解决方案。我们还发现,从文本域的特征来看,不同类型的过滤的效果是不可预测的。最后,我们从经验上验证了包括书籍和网络等异构数据源是广泛有益的,并且需要更大的优先级。这些发现构成了最大的一组实验,以验证、量化和揭示关于文本预训练的许多未记录的直觉,我们希望这将有助于支持LM开发中更明智的以数据为中心的决策。
1简介
现代语言模型的强大性能(Chowdhery et al.,2022;Nostalgebrasist,2022;OpenAI,2023;谷歌,2023)和涌现能力(Wei et al.,2021)取决于在海量文本数据集上的自监督预训练。所有模型开发人员都会隐式或显式地决定这些数据集的组成:包括哪些数据源,是否筛选质量和毒性等属性,以及何时收集新文档。虽然许多最著名的模型没有记录他们的管理程序(OpenAI,2023;谷歌,2023),或者只记录他们使用的程序(Brown et al.,2020;Nostalgebrasist,2022;Scao et al.,2022;Touvron et al.,2023。这种文档债务让从业者以直觉和先例为指导,既没有彻底评估(Bandy和Vincent,2021;Sambasivan等人,2021)。鉴于预训练数据在现代LMs中的巨大和根本作用,我们认为这种疏忽的做法有损于负责任的数据使用,并阻碍了有效的模型开发(Rogers,2021;Gebru等人,2021;Bender和Friedman,2018)。
在少数主导社区使用和讨论的通用LMs中,主要关注的是预训练数据的规模和优化步骤的数量(Brown et al.,2020;怀旧,2022;谷歌,2023)。在这项工作中,我们系统地测试了常见的数据设计决策如何影响模型性能,特别是:收集时间、内容过滤策略(毒性/质量)和领域组成。我们从两个方面研究影响。首先,我们介绍了现有质量和毒性过滤方法效果的观测测量结果(第3节)。我们记录了这些滤波器如何影响两个主要预训练数据集中的一系列特征,C4(Raffel等人,2020)和Pile(Gao et al.,2020)。其次,我们严格评估这些下游任务的数据集设计决策。这是通过评估仅解码器自回归LMs来实现的,每个LMs都是在沿着时间、毒性、质量或领域组成的一个维度修改的数据集上预训练的。我们的贡献总结为对模型开发人员的调查结果和建议。
数据集的时间(第4节)。
如果评估数据在预训练数据收集之前或之后,我们会看到性能下降,而这种缺陷无法通过实质性的微调来克服。此外,这种现象在更大的模型中会加剧。虽然很少被承认,但我们表明,根据评估数据集的时间,它的影响可能会使新旧模型之间的比较变得有意义地复杂。
质量和毒性过滤器(第5节)。
文档质量和毒性的过滤对模型行为有显著但相反的影响。尽管减少了训练数据的数量,但高质量的过滤,即删除低质量的文本,大大提高了我们测试的任务的有害生成和下游性能。另一方面,删除有害数据可以减少有害代,从而降低泛化性能。反毒性过滤器去除毒性最小的物质,显示出有针对性的益处。最后,对具有高质量文本的数据集的评估不一定会通过从数据集中删除低质量文本来改进。质量过滤带来的性能影响大多是积极的,但文本特征带来的好处是无法预测的。这些发现表明,一种尺寸(过滤器)并不适合所有人,从业者需要为他们的任务开发更有针对性的质量或反毒性过滤器。
领域组成(第6节)。
表现最好的领域包括高质量(图书)和异构(网络)数据,这证实了Brown等人(2020);Chowdhery等人(2022);谢等人(2023a)。然而,这些文本源对有毒生成的贡献最大。尽管如此,我们发现,对这些数据源进行训练的好处往往大于对目标领域的数据收集,因此建议从业者将未来的收集重点放在更多的书籍和多样化的网络数据上。此外,我们性能最好的模型仍然使用所有数据源(即使是1.5B参数的相对较小规模);因此,我们建议从业者慷慨地包括与其下游任务不太相关的数据源(Madaan et al.,2022)。
据我们所知,这些实验构成了最大的公开记录的LM数据管理研究,涵盖28个1.5B参数模型。他们的发现从经验上量化、验证了根深蒂固的未经充分检验的预训练假设,偶尔也会对其提出质疑;我们认为这证明了它们的计算成本(第8节)。由于大多数社区已经为大多数研究和应用采用了一小组模型(BERT、T5、GPT-2、GPT-3),预训练数据管理决策具有长期影响。我们希望这些结果能更好地为训练下一波LM的模型开发人员提供信息。
表1:众所周知的语言模型列表及其预训练数据的定量分解,包括所代表的领域;如果使用Pile或C4,则多语言(M-L)数据的百分比(表示非英语和非代码);如果使用毒性或质量数据过滤器,作为自动启发式(H)或分类器(C);如果数据集是公共的(Pub),以及数据是在哪一年收集的。如果一个数据集是“部分”公共的,那么它的所有组成语料库都是公共的,但不是最终的混合物。在从赵等人(2023)扩展而来的代表域中,Web包括公共抓取和其他Web抓取;对话包括论坛、社交媒体和对话;学术包括研究论文、教科书和数学。
2方法
我们衡量预训练数据管理选择如何影响下游性能。图1说明了我们的方法:每个实验从一个预训练数据集开始,应用一个删除文档的过滤器,在策划的数据集上预训练语言模型,最后在下游任务上评估模型。
2.1预训练数据集
我们从两个常见的、公开可用的预训练数据集开始:C4(Raffel等人,2020)和Pile(Gao等人,2020年)。两者都接受了针对英语语言和内容质量的基本的初始启发式过滤。我们使用Lee等人(2022)中描述的近似重复数据消除方法进一步对两个数据集进行重复数据消除。
C4(Raffel等人,2020)The English Colossal Clean Crawled Corpus(C4)是2019年Common Crawl的快照,其中包括新闻、法律、维基百科和通用网络文档(Dodge等人,2021),经过过滤以获得格式良好的英文文本。*虽然C4的原始版本从“坏单词列表”中过滤掉了任何包含单词的文档,但我们的版本没有。C4仍然是用于文本训练的最广泛采用的完全开源数据集之一,因为它的许可证是允许的。如表1所示,它是许多LMs的关键组成部分。
The Pile(Gao et al.,2020)是一个800GB的数据集,由22个来源的数据组成。其中包括一个常见的爬行网络抓取,以及更多样的学术、书籍、编码、医学、法律和社会来源的集合(见表8),它们更接近于大型非开源模型中报告的数据源,如PaLM(Chowdhery et al.,2022)、Chinchilla(Hoffmann et al.,2021)和GPT-3系列(Brown et al.,2020)。
2.2数据保存选择
我们根据三类干预措施评估预训练数据的变化。
数据集时间
我们通过重新生成不同年份的CommonCrawl快照来创建C4的新版本(见图10)。“Pile”无法使用多个基于时间的集合。
域筛选
C4和Pile都来自多个不同的数据源,但Pile明确地从网页、维基百科文章、代码库、在线论坛、法律文本和研究论文档案中划出了22个不同的来源。为了控制预训练集合的主题内容,我们选择性地从不同域中删除文档(见表8)。
内容筛选
从Common Crawl和其他策划不力的互联网来源派生的数据集往往包含大量低质量、有毒或攻击性内容。因此,策展人经常应用基于内容的过滤器。决定包括什么和不包括什么是一个具有挑战性的、依赖于上下文的问题:一篇“高质量”的Reddit帖子看起来不像是一篇“低质量”的学术论文;即使是学术论文,通过同行评审衡量的质量也有很大的差异(Cortes和Lawrence,2021)。
有几种方法可以确定文件的适当性。最简单的过滤器使用句子长度、停顿词和标点符号的存在以及重复性等特征来识别不包含可用文本的页面(Rae等人,2021;Yang等人,2019;Laurençon等人,2022;Zhang等人,2022)。否定定义的过滤器识别要删除的文本类别,并假设其他所有内容都可用。例如,Raffel等人(2020)将包含单词的文档从“坏单词”列表中删除。积极定义的过滤器识别要保留的文本类别,并删除其他所有内容(Du等人,2022;Touvron等人,2023;Brown等人,2020)。
在这项工作中,我们评估了在最先进的语言模型开发中广泛使用的两个文档级、基于分类器的过滤器的影响。其中包括负面定义的有毒内容(亵渎、露骨、侮辱或威胁的文本)和正面定义的高质量内容(类似于已知“高质量”来源的文本)。需要强调的是,我们没有真值:为了本文的目的,我们将使用有毒或质量的描述来指代触发这些自动分类器之一的文档,而不是为人类读者指示实现这些特征的文档。
质量过滤器
最新的语言模型创建了质量分类器来区分“高质量”语料库和其他文档(表1)。这些通常会应用于已爬网的网页。高质量参考语料库的例子有:(1)GPT-3的维基百科、WebText和书籍(Brown et al.,2020),(2)PaLM的维基百科、书籍和一些精选网站(Chowdhery et al.,2022)和GLaM(Du et al.,2021),以及(3)LLaMA在维基百科中用作参考的页面(Touvron et al.,2023)。在我们的工作中,我们使用了PaLM和GLaM使用的分类器,它为每个文档分配从0(高质量)到1(低质量)的分数。我们的实验是删除低于四个质量阈值(0.975、0.95、0.9、0.7)的文档,以及一个反向滤波器,它会删除低于阈值的最高质量文档。
毒性过滤器
为了识别有毒内容,我们使用Jigsaw的Perspective API†,该公司根据在线论坛的评论进行了训练,并根据注释者是否发现评论包含污言秽语/淫秽、基于身份的负面、侮辱或威胁来分配毒性得分。尽管与任何分类器一样,PerspectiveAPI被证明是不完美的——它错误地将一些中性文本token为有毒文本,其训练数据反映了其注释者的规范值——但它被证明比启发式和基于规则的分类器更准确(Friedl,2023;Gargee等人,2022;Lees等人,2022)。
PerspectiveAPI输出从0(不太可能有毒)到1(很可能有毒)的分数。文档建议根据从业者的目标,使用0.3到0.9之间的分数阈值来筛选文档我们实验删除得分高于0.95、0.9、0.7、0.5和0.3这五个不同毒性阈值的文件。超过给定阈值的文档将被过滤掉,同时使用反向过滤器去除低于阈值的预测毒性最小的文档。
除了基于分类器的滤波器外,我们还对Raffel等人使用的基于n-gram的滤波器进行了实验。(2020)在C4数据集的原始版本中。该过滤器删除所有包含“肮脏、顽皮、淫秽或其他坏词列表”中任何单词的文档。§
2.3评估
为了测量时间、主题和毒性的影响,我们评估了预先训练的模型在英语任务中的毒性识别、毒性生成、来自不同领域的数十个问答(QA)任务以及具有时间注释的几个任务。在选择评估时,我们比较了不同模型的一般效用,以及它们在任务中的性能,我们预计这些性能会受到正在消融的数据集特征的影响。由于我们正在比较不同预训练模型的性能,我们通过在每个任务的相关数据集上微调模型来评估每个预训练模型在下游任务上的性能,并在相同的测试数据上进行评估(除非另有说明,否则对每个任务使用默认拆分)。因此,微调结果之间的任何系统性差异都只能归因于预训练的差异。对于所有任务,我们报告的是相对于基线的平均性能,通常是在未过滤的数据集上训练的模型的性能。
正在评估域
泛化我们评估了两个问答基准的联合:用于问答的机器阅读(MRQA)(Fisch et al.,2019)和UnifiedQA(Khashabi et al.,2020),它们共同由30个独特的QA数据集组成。这些QA数据集跨越了一系列领域,使我们能够衡量主题对齐的影响(见表9)。
评估时间错位
先前的工作表明,数据集的收集时间会影响下游模型的能力(Lazaridou等人,2021;Agarwal和Nenkova,2022)。Luu等人(2021)发布了几个数据集,其中微调和评估时间之间的时间距离增加会降低测试性能。我们从不同领域中选择了5个数据集来评估预训练和评估时间之间是否存在类似现象:PubCLS、NewSum、PoliAffs、TwiERC和AIC。
评估有毒物质的产生
产生亵渎、性露骨、侮辱或淫秽的文本或攻击身份群体或以受保护的人类属性为目标的文本限制了LMs的应用(Gehman等人,2020)。我们使用语言模型提示来评估这种行为,该语言模型提示旨在引出与性别、种族和宗教相关的偏见或毒性输出(Chowdhery et al.,2022),然后测量生成的延续部分,这些延续部分被PerspectiveAPI评为高毒性分数(详见附录C.3)。我们还使用RealToxicityPromts数据集(Gehman et al.,2020),该数据集由OpenWebText数据集(Gokaslan*et al.,2019)的文本摘录组成,这些文本被Perspective APItoken为有毒。
毒性鉴定评估
虽然一些应用程序要求LMs不要生成有毒文本,但在其他应用程序中,LMs识别此类语言很重要。作为主要通信平台内容审核的一步,毒性识别变得尤为重要(纽约时报,2020;辛格,2019)。定义因环境、针对仇恨言论、刻板印象、社会偏见或某些毒性定义而异。我们使用社会偏见框架(SBF,Sap等人,2020)、DynaHate(DH,Vidgen等人,2021)和Toxigen(Hartvigsen等人,2022)的训练和测试集,通过各种毒性解释来评估这种能力。¶
2.4型号
对于我们的所有实验,我们只使用两种大小的解码器,即在T5X代码库中训练的基于Transformer的语言模型(Roberts等人,2022)。我们的主要实验使用LM-XL,这是一个仅1.5B参数解码器的模型,类似于用自回归下一个tokens预测目标训练的t5.1.1-XL架构配置。对于测量缩放效应的实验,我们使用LM Small,这是一个仅限20M参数解码器的模型,类似于t5.1.1-Small配置。这些配置很受欢迎,表现出不错的性能(Wang et al.,2022),并且可以在没有额外微调的情况下生成文本。有关预训练和微调的更多详细信息,请参阅附录C。
3数据整理对数据特性的影响
章节调查结果
•Pile的文件平均比C4中的文件更长、更可读、质量更高,但包含更多的个人身份信息(PII)。
•书籍是一个异类领域,拥有最长、可读性最强、毒性最强、PII填充最多的文档,同时也包含高质量的文本。
•高毒性和低质量文件具有类似的高PII量,但在其他方面具有非常不同的平均长度、质量和毒性水平。
•最近的网络抓取文本更加多样化,毒性更小,但质量也更低。
在评估数据消融对模型的影响之前,我们对预训练数据集本身进行了观测统计。该分析揭示了Pile的域与C4和彼此之间的比较,以及管理或过滤选择如何影响数据的特征,有时是无意的。我们发现,策展选择之间存在着实质性的互动。
我们为每份文件计算一系列特征,包括毒性和质量指标;个人身份信息类别;以及文本统计数据,如平均单词长度、可读性、typetoken比率和情感。有关这些功能的更多详细信息和分析,请参阅附录D。
C4与Pile
图9显示了两个源数据集之间的差异。Pile中的文档平均更长(2.4x),具有更多的非ASCII字符(1.9x),表示语言范围更大,质量更高(1.2x),可读性更强(1.8x)。Pile文档还包含更多的PII,特别是个人姓名、地址和电子邮件。
毒性和质量
虽然可以合理地假设高毒性与低质量相关,但图2显示了这种关系更为复杂:事实上,毒性和质量之间并没有很好的一致性。高毒性文件的文本质量高于低毒性文件。在被归类为低质量和高质量的内容之间,对脏话、毒性和色情内容的特征测量也几乎没有明显差异。
域
在图2中按域查看Pile的特征可以给出一种解释。图书的子集突出表现为具有更多的亵渎、有毒和性内容,但也具有更高的预测质量。虽然我们可能期望书籍质量高,因为它们通常包含有意义的、经过精心编辑的句子,但它们也包含强烈的语言和色情主题。这也可以解释为什么C4和Pile中被归类为高毒性的文件要长得多(分别为2.5倍和3.5倍),更亵渎(5倍和4.4倍),性露骨(4.6倍和4.2倍),有毒(3.6倍和3.5x)。然而,具有高毒性的Pile文件具有各种PII的可能性要高出1.4-1.9倍,而C4中则不然。C4中被归类为高质量的文件更长(1.3倍和1.2倍),名字更多(1.6倍和1.8倍),但电子邮件、地址和电话号码更少。
在我们研究的领域中,OpenWeb提供了最多的词汇和语言多样性,具有最高的非ASCII字符和类型token比率。维基百科提供了最高质量的文本,先于图书和开放网络。PubMed、Code和Academic等技术领域的预测质量得分较低,这表明网络文档上过于具体的正向定义过滤器可能会删除大量潜在有用的专门文本。
时间
比较C4的不同收集时间(见图9),我们看到了几个稳定的趋势。近年来,非ASCII字符的百分比稳步上升,而测量的文本质量则有所下降。这种增长可能是由于非英语内容的增加,但也可能与表情符号和非ASCII标点符号的使用增加相对应。毒性评分在以后几年也略有下降,而情绪则有所上升。
图2:预训练数据集切片之间的特征差异。条形图显示切片的平均特征值与数据集(Pile或C4)的平均值之间的比率,该比率由水平灰线表示。例如,Wiki文本的脏话有一半,质量值是Pile平均值的三倍。
4数据集时间对预训练模型的影响
第节调查结果•模型和评估数据集都变得陈旧。
•预训练和评估数据之间的时间偏差不能通过微调来克服。
•时间错位使在不同时间训练的模型的评估变得复杂,因为旧的评估数据集可能会变得陈旧,而新的评估数据集中可能会低估旧模型的性能。
•预训练错位对较大模型的影响比较小模型更强。
虽然模型经常用新的微调数据进行廉价更新,但预训练的费用意味着NLP社区依赖的静态预训练模型相对较少,很少更新或交换。BERT、RoBERTa、GPT-2和T5变体都在2020年之前进行了预训练,在HuggingFace上下载的所有模型中占大多数(截至2023年4月16日,估计约为58%)。先前的工作表明,语言使用会随着时间的推移而变化(Altmann et al.,2009;Labov,2011),微调和评估数据集之间的时间错位与性能下降相关,这在不同的设置和领域中都是可见的(Luu et al.,2021;Lazaridou等人,2021;Agarwal和Nenkova,2022;Jang等人,2022)。相反,我们研究了预训练数据和评估之间的时间错位的影响。在评估预训练时间对数据域的影响时,我们可以量化这种设计选择对NLP的广泛影响。
图3:预训练和评估之间的时间错位导致性能下降。四个LM-XL,每个都在不同的C4时间分割上预处理,在五个数据集的每个时间分割上进行评估。根据Luu等人(2021),热图颜色按列进行归一化,以显示每个评估年度的最佳预训练年度。
我们在C4版本上预训练了四个自回归语言模型:2013、2016、2019和2022。对于每个版本,我们从Common Crawl数据开始,并删除截止年份后刮取的所有数据。继Luu等人(2021)之后,我们通过使用评估任务(来自新闻、推特和科学领域)来测量时间错位的影响,这些评估任务具有按年份划分的训练和测试集。在预训练之后,我们分别在每个数据集的训练年划分上微调每个模型,然后在每个测试年划分上进行评估。全部细节和结果分别见附录C.4和附录E.1。
首先,我们复制了Luu等人观察到的性能下降。(2021)由于图12中五项任务的微调和评估偏差。接下来,我们估计预训练和评估之间时间偏差的影响(图3)。由于所有模型都在评估任务的训练集上进行了微调,我们表明,即使有时间相关的微调数据,预训练期间的时间错位也会持续存在。
图4:随着时间偏差(x轴)接近零,5个数据集(y轴)的平均相对性能增加。方框图表示中值(实线)、平均值(三角形)、四分位数范围(方框)和分布的其余部分(须)。请注意,每个数据集都有不同的评估年份范围。
性能下降与预训练错位密切相关,其影响并非微不足道。
Luu等人(2021)正式定义了时间退化(TD),该定义衡量了从微调和评估年份之间的一年差异中观察到的性能变化。我们将TD推广到测量预训练时间和评估时间之间一年差异的影响,如附录C.4所述。此外,我们测量了性能差异和时间差异之间的Pearson相关性r,以了解相关性的强度。在表2中,我们发现微调的时间退化最高(平均2.8),正如预期的那样,但预训练一年的时间退化也惊人地高(0.4),尤其是在新闻领域。0.61的平均Pearson相关性表明预训练时间错位和性能退化之间存在很强的相关性。所有五项任务都通过了p<0.05的单侧Wald检验,验证了斜率大于零。
表2:时间退化(TD)衡量了一年时间错位后的预期性能退化。我们首先报告了LM-XL和LM-Small在五项任务中的微调和评估之间的TD,然后是预训练和评估。Pearson相关性r表示表现与时间变化之间的相关性强度。预训练导致的时间退化在各个领域都是显著且持久的。除非用†token,否则所有相关性在p<0.05时均显著。
预训练未对准不能通过显著的微调来克服。
预训练导致的时间退化表明,在与目标评估相同的时间框架内对数据进行预训练的模型将比在更旧或更新的数据上训练的模型具有优势。值得注意的是,对于在完整的时间相关训练集上进行微调的模型,可以观察到这种影响。这表明,即使是实质性的微调也无法克服时间上错位的预训练数据。
训练前未对准效应是不对称的,对NLP评估具有影响。
无论预训练数据是在评估数据之前还是之后收集的,我们都会观察到性能下降。虽然我们预计2019年的检查点在有关新冠肺炎的问题上不会表现良好,但我们也发现,2022年检查点在奥巴马时代的评估中表现不如早期模型。特别是,图4显示了绩效退化是不对称的:当评估年份在预训练年份之后时(蓝色条),与之相反(红色条),绩效退化更为严重。这一发现表明,模型和评估都变得过时了:旧模型在新评估中的表现不如新模型,而新模型在旧评估中的效果也会较差。这种现象可能对NLP实验在不同时间比较预训练的模型有微妙的影响。例如,当应用于已建立但不太新鲜的模型时,较新的评估集可能看起来比旧的评估集困难得多。同样,旧的评估可能低估了新模型的能力。
较大模型的时间退化较大
我们发现LM-XL(1.5B参数)比LM-Small(20M参数)的时间退化更多。如表2所示,我们没有发现预训练对LM Small模型的时间退化影响是显著的。这表明,较大的模型可能比较小的模型对时间信息更敏感,较小的模型可能根本没有能力利用细微的时间特征。LM小型实验的完整结果见附录E.1。
5质量和毒性过滤器对预训练模型的影响
章节调查结果
•质量过滤器和毒性过滤器具有非常不同的效果。
•尽管删除了训练数据,但高质量过滤器仍能显著提高性能。
•数据集特征不容易预测质量过滤效果。未来的过滤器应该权衡不止一个维度的质量。
•毒性过滤权衡了通用性和毒性识别能力,从而降低了毒性产生的风险。
•在优化毒性识别任务时,从业者应使用反毒性过滤器。
大多数现代大型语言模型对其预训练数据集使用某种形式的质量和/或毒性过滤(表1)。为了抑制毒性,T5使用n-gram过滤器,Gopher和Chinchilla使用SafeSearch过滤器,LaMDA使用“安全鉴别器”。质量启发式方法普遍应用于网络抓取数据,LLaMA、GPT系列和PaLM系列等较新模型都依赖于质量分类器。为了比较和量化这两种过滤器类型的效果,我们在不同阈值下实施了质量和毒性过滤器,如第2.2节所述,以改变在Pile和C4上预训练模型时出现的毒性和低质量文本的数量。
质量过滤器显著提高了几乎所有任务的性能,尽管减少了训练数据的数量和种类。
我们看到,质量过滤器几乎改善了所有下游任务:毒性鉴定提高了2%(图5,右),大多数QA任务类别提高了1-6%(图6)。最令人感兴趣的是,尽管删除了10%以上的训练数据,但这些改进还是实现了,尽管我们发现删除数据通常会导致性能下降(第6节)。虽然QA任务的平均性能在T=0.975处达到峰值,但更高质量的滤波平均仍优于未滤波的基线。对于毒性鉴定实验,在T=0.7之后,性能仍在提高,其中55%的数据集已被过滤掉。
数据集的质量特征并不能有力地表明过滤效果。
在第3节中,图书、维基百科和网络数据被归类为最高质量。图6显示,尽管如此,质量过滤为这些类别中的QA任务提供的好处最小,甚至损害了Books的性能。另一方面,学术和生物医学数据的质量排名最低,但它们的QA任务从质量过滤中受益最大。
在一个质量度量上进行优化不足以预测或提高跨领域的性能。
最有趣的是,维基百科和网络质量保证任务是受反向过滤器影响最大的任务之一——这表明这些域不像存在最高质量数据那样受缺乏最低质量数据的影响。同样出乎意料的是,质量和反向质量过滤器都导致了具有更高毒性生成趋势的模型(图5,右)——通过质量分数捕获的一维质量测量不足以解释这种行为。换句话说,沿着该分类器的质量谱的不同数据段可以对不同领域产生强烈但不同的影响。它建议从业者应该超越一种质量衡量标准,考虑多种质量。
图5:毒性过滤预训练数据集降低了LM XL识别毒性和生成毒性文本的能力。质量过滤出人意料地增加了这两种能力。分数低于给定阈值的文档被过滤掉。
图6:质量过滤C4提高了LM-XL在除Books之外的所有QA任务域上的下游性能。质量过滤器阈值在x轴上,括号中保留训练数据的百分比。每一列表示一个域中的一组QA评估。“完整数据集”未经过滤,而“反向”过滤器会删除最高质量的数据。
图7:毒性过滤C4降低了LM-XL在大多数QA任务域上的下游性能。毒性过滤器阈值在x轴上,括号中保留训练数据的百分比。每一列表示一个域中的一组QA评估。“完整数据集”未经过滤,而“反向”过滤器会删除毒性最低的数据。
一种尺寸不适合所有人。毒性过滤导致毒性识别和毒性生成目标之间的权衡。使用毒性分类器进行过滤,我们发现了一种折衷:从经过严格过滤的预训练数据集训练的模型产生的毒性最小,但毒性识别也最差(图5,左)。同样,图7显示了与毒性无关的QA任务的性能受到毒性过滤的影响,尽管这可能是由于训练数据的总体减少。最终,模型的预期行为应该为过滤策略提供信息,而不是一刀切。最有趣的是,每个数据集在毒性识别方面的最强性能来自反毒性过滤器。针对有毒域的性能进行优化的从业者应该有意应用反向过滤器。
6域组成对预训练模型的影响
章节调查结果
•包含Common Crawl、OpenWeb和Books对下游性能的积极影响最大。数据源的异构性比数据质量或大小更重要。
•有针对性的数据有助于有针对性地进行评估,但并不总是像包括异构域名那样多。
•包含尽可能多的预训练数据源是有益的。
如表1所示,预训练数据集试图通过组合来自不同领域的数据来推广到广泛的下游任务。预训练源域的选择如何影响下游性能?我们通过一次一个地消融来自Pile的预训练源,并测量来自不同领域的27个QA任务的下游性能变化,从经验上回答了这个问题。
我们首先将Pile数据源分为九个领域,代表从业者可以选择许可或获取更多的概念源:Common Crawl(CC)、OpenWeb、Wikipedia、Books、PubMed、Academic、Code&Math、Legal和Social(见表8)。这些按大小升序排列。我们选择保持这些来源的规模差异,只是因为它们反映了现实:维基百科策划的内容天生有限,而网络和书籍则丰富得多。然后,我们用完整的数据集减去每个类别来预训练LM-XL,生成九个模型,然后使用自然问题对每个模型进行微调以进行QA。最后,我们在MRQA(Fisch et al.,2019)和UnifiedQA(Khashabi et al.,2020)的27个独特数据集上评估了该模型,这些数据集也被划分为域。全部细节记录在附录C.5中。
图8:预训练LM-XL时,QA任务受到删除域的影响。每一行表示一个删除了一个域的模型,其余数据集的大小显示在括号中的左侧。每一列表示一个域中的一组QA评估。完整数据集模型表示未过滤的Pile LM-XL,所有分数都与此基本模型相关。
Common Crawl、OpenWeb和Books对下游性能的积极影响最大。
图8显示,当我们删除基于web的域(如CC、Books和OpenWeb)时,平均下游性能下降幅度最大,这证实了Xie等人的最新发现。(2023a)。特别是,这些源可以提高具有挑战性的“常识集”和“对比度集”任务的性能。虽然CC是堆中最大的文本块,但Books和OpenWeb较小,但提供了最异构和预测质量的内容(见第3节)。这些结果表明,更多的数据不一定像异质性和质量的结合那样重要。
领域异质性通常比有针对性的数据更有益,即使对于有针对性评估也是如此。
消融预训练域对下游QA性能有不同的影响。可以预见,当我们删除预训练和下游数据源之间紧密一致的域时,性能会下降:删除PubMed会损害BioMed QA评估,删除维基百科会损害维基百科基准,删除网络内容会损害网络评估。然而,移除目标域对相关下游域的影响并不一定像移除大型异构域那样显著。例如,从预训练数据集中删除CC比删除学术域在更大程度上降低了下游学术QA任务的性能。我们的假设是,CC、OpenWeb和Books包含了对许多主题的广泛报道,因此删除学术特定类别的来源并不能删除所有相关的学术信息。
性能最好的模型使用所有预训练数据源。
尽管数据异构性很重要,但最佳平均性能仍然来自对所有或几乎所有数据进行训练的模型。例外情况是删除目标源域,如Pile’s Code或Academic(高级科学和数学期刊)域。它们都很大,但可能与QA评估集不太匹配,QA评估集除了维基百科和基于网络的来源之外,不需要编码技能或科学严谨性。这一发现表明,开源数据的数量和多样性仍然是当前预训练方法的瓶颈。
网络和图书领域造成了有毒识别和生成之间最大的权衡。
接下来,我们将考虑减少模型对有毒内容的预训练暴露是否会影响其生成有毒语言的倾向或识别有毒语言的能力。表3显示,删除CC(26.9%的数据)、OpenWeb(6.9%)和Books(6.9%。这些结果表明了一种权衡:更好的QA性能(第6节)和毒性鉴定是以产生更多毒性为代价的。
表3:Pile的结构域组成对毒性鉴定和生成的影响。删除书籍、CommonCrawl和OpenWeb会导致毒性指标的最大降低。删除维基百科会大大增加毒性的产生。
7讨论
直觉引导:未记录和未知
训练前的数据集管理一直以直觉为指导:藏品应该是大型、多样化和高质量的。决策往往是由对“足够好”的东西的需求驱动的,或者是由本身可能没有得到彻底评估的先例驱动的(Sambasivan等人,2021)。同样,模型开发人员偶尔会忽视分享经验见解,从而保持知识差距,通常被称为“文档债务”(Bandy和Vincent,2021)。
我们的结果表明,在预训练策略中所做的选择会以显著的方式影响模型,而这些选择无法通过随后的微调轻易消除。我们敦促模型生产者和模型用户将数据集管理策略视为一种超参数形式,就像学习率或网络维度一样。然而,适用于单个标量值的详尽搜索方法不会扩展到影响TB数据的管理策略。虽然我们的结果对于确定预训练策展很重要是必要的,但它们不足以回答所有问题。因此,在本节中,我们提出了具体的建议,但我们的主要结果是,我们需要更好的工具来建模数据和模型功能之间的关系。
预训练语料库的时间。
在理想的世界里,模型将不断地根据最新的可用数据进行重新训练。然而,考虑到数据收集和重新训练的费用,模型创建者必须在效率和模型陈旧性之间做出选择。更微妙的是,我们还发现,在评估回顾性任务时,使用较新的数据可能会增加“呈现者”的偏见。即使对给定任务进行了大量的微调数据,也无法克服过时的影响,而对于更大、更有能力的模型,这种影响更糟。这一结果补充了Schulman(2023)的发现,即对新数据进行微调会加剧新数据的幻觉,而这些新数据在预训练时没有很好的基础。这些初步发现表明,对于更大的模型、更新颖的任务(较少的微调数据)和教学调整模型,预训练语料库的时间特性越来越重要。当前的实践包括使用检索到的最新数据来增强提示,以帮助克服过时的预训练数据。虽然这可能有助于减轻陈旧性,但检索相关文本本身就是一个挑战。
我们建议模型创建者报告预训练数据的时间分布,这不是目前的标准做法(Hoffmann等人,2022;Thoppilan等人,2022年;人类人工智能,2023;Cohere AI,2023)。用户应该能够在更新得多的数据集上预测不可预见的性能下降,或者意识到微调模型对预训练中未涵盖的信息的潜在副作用。
数据源组成。
关于用于预训练的语料库组成的决定可能会对下游性能产生重大影响。在我们在本文中考虑的两个语料库中,C4只包含一个数据源,即Common Crawl的一个片段,而Pile是22个数据源的集合。汇编一个包含不同来源、写作风格和主题领域的语料库更为复杂和昂贵。实现这种多样性也可能使模型容易受到不那么谨慎的管理或从业者知识差距的影响。
在我们的实验中,我们通过在预训练前系统地省略其每个组成数据集来消融Pile,然后测量对标准基准的影响。我们的研究结果表明,如果目标是推广到尽可能多的文本到文本任务,那么从业者不应该省略任何数据源,并且未来的工作应该专注于收集更多样化的网络和书籍内容,这将产生最大的好处。这些发现在一定程度上与训练数据量仍然是一个限制因素的假设一致,特别是在许可证限制的情况下(Nostalgebrasist,2022)。
过滤毒性和质量。
Common Crawl包含大量低质量(广告、重复、非人类可读等)和有毒文本。许多最先进的语言模型在训练前过滤掉这些文本,要么使用坏单词列表(Raffel等人,2020),要么使用启发式方法,要么使用分类器(Du等人,2022;Brown等人,2020;Chowdhery等人,2022)。决定过滤掉多少和什么样的文本需要非琐碎的规范性决定,所有这些过滤方法都涉及到模型创建者有意修改其数据集的偏差,从而修改其模型。
在我们的实验中,我们揭示了模型的泛化能力与其生成有毒内容的倾向之间的隐含权衡。这种行为受到质量和毒性过滤器的调节。事实上,对毒性更强的文件进行过度采样会导致毒性识别的最佳性能。这一观察结果,再加上有证据表明,最近的工作正在使用事后方法来抑制不必要的毒性生成(例如,指令调整(Chung et al.,2022)或可操纵解码器(Dathathri et al.,2020;Welbl et al.,2021)),表明从业者应在预训练期间优先考虑毒性识别,而不是抑制毒性生成能力。
我们发现,尽管删除了大部分训练数据,但我们的质量过滤器(与PaLM使用的过滤器相同,经过训练以保持类似维基百科和书籍的内容)显著提高了跨域的性能。令人困惑的是,图书领域是上述观察的一个例外,因为它的内容是最高质量的。一般来说,数据的观测质量特征不足以预测哪些领域将从质量滤波中受益最大。我们的分析表明,任务/领域的性能不仅受删除了多少低质量数据(即与Wikipedia/Books不同的数据)的影响,还受质量的其他方面的影响,例如在这个特定的测量维度上代表了多少最高或中等质量的数据。
8限制
计算费用和一次性实验
据我们所知,这是公开记录的最大的LM预训练实验,涉及28个1.5B参数模型——实验范围比Chinchilla(Hoffmann et al.,2022)大,模型规模也比miniBertas(Warstadt et al.,2020)、MultiBerts(Sellam et al.,2021)和Pythia(Biderman et al.,2023)大。重要的是要认识到,每一种预处理及其相应的微调和评估都是计算和环境成本高昂的。考虑到这一点,我们仔细决定了要进行什么实验——将我们的列表缩小到:语料库的时间、质量过滤器、毒性过滤器和来源域的选择。我们提前精心策划了实验的选择,没有像许多NLP实验环境中常见的那样进行多轮反思和重复。因此,我们在计算成本和可重复有效性之间尽可能地取得了平衡。我们希望证明我们选择的优点,并指出激励未来工作或深入研究结果的惊喜。
Blackbox API
另一个限制是我们使用Perspective的API来评估几代人的毒性。虽然我们的大多数毒性过滤器和评估都是在压缩的时间段内进行的,但Pozzobon等人(2023)已经证明了黑盒原料药的不可重复性,随着时间的推移,其实施可能会发生变化。我们还认为,虽然这是RealToxicityPrompts等流行毒性生成基准的标准程序,但对API的依赖和狭窄的评估设置对实际应用中的毒性生成影响有限。就目前而言,这些是我们拥有的最好的代理。
与零和少量镜头提示设置的相关性
我们的实验侧重于微调设置,而不是零次或少量的镜头提示。这种选择的动机是微调更适用于1.5B参数模型,也适用于许多应用设置。我们无法确定这些发现在多大程度上转化为提示设置(如果不进行微调),但怀疑它们之间存在强相关性。
9相关工作
预训练数据集整理
已经有几十个通用模型被训练用于自然语言理解和生成任务。该领域的早期模型,如ELMO(Peters等人,2018)、BERT(Devlin等人,2019)和BERT的各种后代(Liu等人,2019;Lan等人,2020),专注于各种自然语言推理任务的强大微调性能,以及语义上有意义的语言嵌入。这些系统是在半策划的数据集上训练的,如维基百科、图书语料库(Zhu et al.,2015)和十亿字基准的新闻文章(Chelba et al.,2013)。XLNet(Yang et al.,2019)摆脱了对精心策划的数据集的使用,将Common Crawl中的文档纳入其预训练数据集中。T5(Raffel et al.,2020)引入了C4数据集,是首批专门在公共爬行数据上进行训练的预训练语言模型之一。T5(Xue et al.,2021)和BERT的多语言版本分别在Common Crawl和Wikipedia上进行了训练。
GPT-2是首批主要用于发电的模型之一(Radford等人,2019)。他们认为Common Crawl太吵了,不适合训练生成模型,于是开发了WebText,这是一个数据集,包含从Reddit上排名靠前的帖子链接到的网站。随后的生成模型提出将大量有噪声的公共爬行数据与被认为是高质量的较小语料库混合。GPT Neo模型家族(Black et al.,2022)在Pile上进行了训练,该模型通过ArXiV、Stack Exchange、法律文件、书籍、Github和其他更具策划性的来源增强了Common Crawl(Gao et al.,2020)。最近,OPT(Zhang et al.,2022)在用社交媒体数据增强的Pile上进行了训练(Baumgartner et al.,2020),LLaMA(Touvron et al.,2023)在用Github、Stack Exchange、书籍和其他来源增强的C4上进行了训练。Pythia在Pile上进行训练,有无重复(Biderman等人,2023)。最后,BLOOM模型家族(Scao et al.,2022)在ROOTS语料库上进行了训练,该语料库众包了一组“已识别”的数据集,这些数据集来自各种语言的已知高质量来源。
到目前为止提到的所有型号都是公开的。然而,公司越来越多地在专有数据集上训练他们的最佳模型,对数据组成的提示有限。在Alphabet,Gopher(Rae et al.,2021)、GLaM(Du et al.,2022)、LaMDA(Thoppilan et al.,2017)和PaLM(Chowdhery et al.,2020)等模型已经在网络文本、书籍、新闻、代码、维基百科和对话数据的混合上进行了训练。在OpenAI,GPT-3(Brown et al.,2020)接受了公共爬行、WebText(GPT-2的训练集)、书籍和维基百科的训练。他们模型的后续版本也包含了代码。这些模型中的大多数都承认使用了各种形式的过滤技术来提高网络衍生训练数据的质量。其中包括分类器,旨在排除看起来最不像“高质量”来源的内容,如书籍或维基百科(Chowdhery et al.,2022;欧阳等人,2022),使用谷歌的安全搜索来识别有毒内容(Rae et al.,2021),以及基于文档长度和某些单词或字符的存在与否的各种启发式方法。
预训练数据集分析
Dodge等人(2021)在C4中发现了大量低质量的专利、军事和机器生成的文本,并且在过滤后缺乏来自美国少数民族社区以及印度或尼日利亚等非西方社区的英语文本,因此建议不要进行过滤。相比之下,Luccioni和Viviano(2021)建议采取更有力的过滤措施,以遏制他们在C4中发现的仇恨言论和色情内容的显著存在,即使在过滤之后也是如此。同样,Kreutzer等人(2022)发现,多语言预训练语料库也以低质量文本为主,尤其是对于资源较低的语言。最后,Lee等人(2022)展示了对预训练数据集进行重复消除的好处,这些数据集通常包含大量重复内容。
数据、毒性和质量
对数据集及其模型的质量和毒性的研究结果喜忧参半。所有主要模型都使用了重要的数据预处理和毒性/质量过滤器进行报告,包括BERT、T5、BLOOM、OPT、ChinChilla、PaLM、LaMDA和GPT-3系列,其中最大的模型现在使用分类器。这种广泛采用表明存在显著的隐性好处,尽管这些好处并不经常被外部报道。GLaM确实根据经验报告了过滤的性能改进,特别是在自然语言生成(NLG)任务上(Du等人,2022)。
然而,在学术界,一些工作警告不要使用解毒技术,包括数据过滤器,这可以减少代表性不足社区的模型困惑(Xu et al.,2021;Welbl等人,2021)。Welbl等人(2021)还报告称,毒性分类器比应用数据毒性数据过滤器更能降低毒性,但Xu等人(2021年)表明,这对代表性不足的社区产生了最严重的困惑。Meade等人(2022)进一步证实,偏见基准的改进与一般语言建模能力的退化相关。此外,Gururangan等人(2022)在研究GPT-3所描述的质量过滤器时发现,其质量判断与事实或文学赞誉不一致,而是与一些与富裕邮政编码更相关的语言意识形态概念一致。视觉领域的工作表明,数据过滤具有重要的解毒益处,但可能会降低性能(Nichol et al.,2022)或引入其他偏见(Nichol,2022)。总之,在无毒和高质量模型的开发中,预训练数据过滤器无处不在,但它们往往会降低其为代表性不足的社区服务的能力,并可能引入新的偏见。额外的工作表明,指令调整(Chung等人,2022;Longpre等人,2023)和对齐调整的形式(Ouyang等人,2022)都减少了不必要的毒性产生。
数据和时间
众所周知,自然语言会随着时间的推移而进化和变化(Altmann等人,2009年;拉博夫,2011年;艾森斯坦等人,2014年;Jaidka等人,2018)。随着语言分布的变化,由于模型对最近事件、句法和语义实践的静态了解,模型在新测试集上表现良好的能力也被证明会下降(Lazaridou等人,2021;Agarwal和Nenkova,2022;Longpre等人,2021)。Luu等人(2021);Lazaridou等人(2021);Liska等人(2022);姚等(2022);张和崔(2021);Jang等人(2022)提供了衡量这一现象的评估集。建议的补救措施包括对最近的数据进行微调(Luu等人,2021)、自适应/连续预训练(Lazaridou等人,2021;Röttger和Pierrehumbert,2021),数据扩充(Singh和Ortega,2022),用定音标对文本建模(Dhingra等人,2022)。据我们所知,没有任何工作彻底研究了从头开始预训练时时间退化的影响。
数据域(&D)
公共数据集的组成,如C4和Pile,主要由许可证指导,这严重限制了可用性。即便如此,Villalobos等人(2022);怀旧主义者(2022);Hoffmann等人(2022)认为,我们即将耗尽网络上的高质量文本数据,以训练更大的LMs,至少以现有的训练效率。鉴于高质量和多样化的训练数据对强泛化的重要性,这带来了挑战(Gao et al.,2020;Papadimitriou和Jurafsky,2020)。大量文献致力于使静态预训练模型适应新的下游领域,使用领域自适应预训练(Gururangan et al.,2020),寻找中间微调任务(Pruksachatkun et al.,2019),动态平衡数据源(Wang et al.,2021),数据选择(Iter和Grangier,2021),以及主动学习(Longpre等人,2022)。另一项工作证明了在精心制作的合成数据上进行预训练的潜力(Wu et al.,2022)。
与我们工作的这一部分最相似的是,Xie等人(2023a)重新平衡Pile的混合物,以实现更高性能和更有效的收敛。Xie等人(2023b)使用重要性抽样来选择对目标下游任务最有用的Pile子集,而不是质量滤波器,以实现下游任务2%的改进。Pruksacakun等人(2020)系统地对中间微调任务的效果进行了基准测试,类似于我们如何对预训练任务的不同组成进行基准测试。
模型和数据缩放
先前的工作已经探索了缩放模型的大小(Kaplan等人,2020;Tay等人,2022;Du等人,2022)、预训练数据的数量或预训练步骤的数量(Liu等人,2019;Chowdhery et al.,2022;Brown等人,2020)。Chinchilla研究并报告了最佳计算缩放律,表达了模型和数据大小之间的关系(Nostalgebrasist,2022)。最近的工作表明,新的能力在更大范围内出现(Wei等人,2022),但其中许多好处可以提炼或压缩到更小的模型中(Taori等人,2023;Movva等人,2022年)。在这项工作中,我们研究了时间预训练偏差如何在不同的模型大小上变化,据我们所知,这在以前是没有答案的。
10结论
文档、内容过滤器和数据源的相对时间对下游模型行为都有显著影响。这些影响可以通过微调来减少,但不能消除。我们建议模型开发人员和用户在设计/选择与他们的需求最相关的模型时密切关注这些细节,因为每个决策都有一个具体的、可量化的权衡概况。例如,在改进毒性识别或减少毒性生成、全新或旧数据源的性能以及生物医学或书籍文本域之间做出决定可能很重要。这些无数的选择是管理任何预训练数据集所固有的。虽然我们只能评估其中的一小部分,但我们能够显示哪些选择很重要,有多重要,我们希望在给定预训练数据集的情况下,进一步评估数据集组成和预测模型行为。
B扩展文献综述
表4列出了过去几年中训练的流行和知名模型,以及关于其训练数据的可用信息摘要。
C实验细节
本节提供了有关用于预训练、微调和评估的方法和超参数设置的进一步详细信息。
为了使模型能够在不进行微调的情况下生成,但在微调后也能表现良好,我们依赖于Wang等人的大量实验。(2022)。他们的经验结果表明,因果解码体系结构符合这些标准,该体系结构具有全语言建模预训练目标(“CD-FLM”),允许在不进行微调的情况下生成,然后是用于微调的前缀语言建模目标(PLM),其中因果注意掩码从原始提示中删除。
C.1预训练细节
我们的两个预训练数据集是C4(Raffel等人,2020)和Pile(Gao等人,2021)。我们使用与Raffel等人的原始T5相同的词汇。(2020)。所有训练都是使用T5X(Roberts等人,2022)和Tensorflow(Abadi等人,2016)在TPU上进行的。LM-XL和LM-Small预训练的具体超参数详见表5。
C.2微调细节
除非另有说明,否则评估是通过对每个基准任务的训练集进行微调,然后对验证集或测试集(在每个章节中指定)进行评估。微调超参数如表6所示。
表5:预训练超参数我们采用王等人的默认预训练超参数值。(2022),他们选择自己的参数,在广泛的基于T5的预训练和架构实验中进行公平比较。
表6:每组下游任务的微调和评估参数。我们报告了用于微调和评估预训练模型的微调超参数设置和评估度量。我们对四组任务进行了微调:毒性识别任务(Toxigen、Social Bias Frames和DynaHate)、自然问题(用于预训练域转移分析)、一般NLU性能(SuperGLUE)和时间任务(包括PubCLS、NewSum、PoliAff、TwiERC和AIC)。对于T5 Small型号,我们相应地修改了训练步骤的数量,如最后一行所示。
C.3毒性评估细节
在本节中,我们将描述第5节中给出的结果的评估细节。
毒性鉴定
对于毒性鉴定评估,我们分别对以下每个数据集进行微调:社会偏见框架(SBF,Sap等人,2020)、DynaHate(DH,Vidgen等人,2021)和Toxigen(Hartvigsen等人,2022)。然后,我们使用AUC-ROC在他们各自的测试集上进行评估,该测试集计算不同分类阈值上的错误率。请注意,这些数据集中的每一个都有一个略有不同的毒性版本:社会偏见框架的语言中隐含的偏见和攻击性刻板印象,DynaHate的仇恨、非人化和贬损等仇恨言论类型,以及Toxigen对少数群体的敌对、微妙和隐含形式的毒性(如刻板印象、微侵犯)。我们对它们进行平均,以了解模型在广泛识别毒性方面的能力。
有毒物质的产生
对于有毒的生成,我们不做任何微调。相反,我们评估每个模型生成有毒延续的频率。为了衡量模型对良性和恶意输入的混合产生性、亵渎或有毒反应的倾向,我们使用RealToxicityPrompts(Gehman et al.,2020)数据集的提示,以及为探索PaLM中的代表性偏见而开发的提示集(Chowdhery et al.,2022)。
对于每个模型,我们使用top-k采样(k=40),在温度为1.0的情况下,每个提示生成25个响应。根据Chowdhery等人(2022),我们使用PerspectiveAPI对反应进行评分,将毒性评分>=0.5的反应token为毒性。对于两个评估划分,一个具有无毒输入,另一个具有有毒输入,我们计算每个提示中生成是有毒的概率。由此产生的评估指标表示为RPT-T(针对有毒输入)和RPT-NT(针对无毒输入)。
代表性偏见基准是根据(Rae等人,2021)中的身份术语构建的,Chowdhery等人(2022)对此进行了更详细的描述。它使用为几个身份token构建的模板,我们使用与性别、种族和宗教相关的子集。按照RealToxicityPromts的实践,我们对每个提示采样50个响应,使用top-k采样(k=40,温度=1.0),然后如果Perspective API评估其毒性得分>=0.5,则将响应分类为毒性。我们对每个身份token和每个例子的毒性率进行平均,以计算RepBias的总体评分,其中越高表示平均产生的毒性反应越多。我们还计算了95%的置信区间,以显示平均值的变化在哪里是显著的。
C.4时间评估细节
本节介绍了第4节中所述结果的评估细节。在应用设置中,可用的训练数据(用于预训练或微调)可能来自与测试时间数据不同的年份。为了模拟这些情况,Luu等人(2021)构建了几个按收集年份划分的数据集,以衡量微调和评估拆分收集时间差异对性能的影响。如第2.3节所述,我们选择了5个数据集,这些数据集对这些时间错位非常敏感,涵盖了不同的任务和数据源。这些任务是摘要、命名实体识别、政治派别分类、学术主题分类和新闻来源分类。
由于时间退化实验中每个任务的独特性,我们只需对每个任务单独进行微调,然后再对其各自的测试集进行评估。对于每个数据集,我们使用批大小为64、最大序列长度为128的4x4 TPU进行微调,并每500个训练步骤进行验证。我们选择整个训练中验证准确度最高的测试集分数。最佳学习率和达到收敛所需的总步骤数因模型和模型大小而异,如表7所示。这些超参数是基于最初的实验选择的,这些实验试图产生稳定的学习曲线,其峰值接近Luu等人(2021)中观察到的值。
表7:时间数据集和训练细节:对于用于评估模型在不同时间段的能力的五个数据集中的每一个,我们报告了每个模型大小中使用的学习率和步骤数。选择这些超参数是为了确保在我们的基础设施设置中保持一致的收敛性和稳定性。
我们遵循Luu等人(2021)在计算时间退化(TD)方面的确切处方,以及他们报告的Pearson相关性测量(r)。时间退化可以解释为一段时间内性能的平均退化率,以年为单位。由于时间退化分数是在每个评估年计算的,因此我们对所有评估年进行平均,以计算数据集的最终TD分数。此外,每个数据集都有不同的可用训练和评估年份。为了说明这一点,我们遵循Luu等人的观点。(2021)提出了Pearson相关系数,该系数表示了时间差异和绩效恶化之间关系的强度。我们还复制了Wald检验,假设斜率为零。
为了评估预训练的时间退化,TDp,我们修改了Luu等人(2021)的原始公式来测量不同的D(t0→ t) 其中t0现在是预训练年份。但是,在这种设置中,性能样本用不同的微调年份表示。为此,我们仅将预训练年tp的相对性能变化与具有相同微调tf和评估年te的模型进行比较。换句话说,给定Stp→tf→te,我们只将其性能与St 0 p进行比较→t f→t e,其中t 0 p 6=tp,但是t f和t e固定为它们各自的值。
在某些边缘情况下,没有等效于预训练年的评估年,∀t∈t,tp 6=te,因此术语Stp→t 00 f→te)不存在。在这种情况下,我们将这个项设置为tp和te最接近的项。而且,和以前一样,使用的确切术语将取决于为哪个版本的tf进行计算。
C.5使用问答数据集评估域
本节介绍了第6节中所述结果的评估细节。这些实验涉及用来自Pile的语料库的不同子集对模型进行预训练(Gao et al.,2020),并观察其对各种下游评估领域的影响,以问答数据集为代表。因此,我们能够将预训练领域的效果映射到评估领域。
首先,我们讨论了预训练域的构造。我们将Pile的源数据集划分为表示主题相似的数据源的类别,如表8所示。我们将这些类别称为域。这些域分区是主观的,不能完全将文本分为这些类别。例如,维基百科、图书和公共抓取数据不可避免地包含一些学术信息,但总的来说,这些分区代表了我们试图通过从业者和研究人员感兴趣的领域来描述的不同特征(见第3节)。先前的工作试图衡量、强调或针对(包括或排除)我们在分区中使用的特定类别的数据,如更多的书籍和结构化数据(Brown et al.,2020;Chowdhery et al.,2022)、代码数据(Chen et al.,2021)和法律数据(Dodge等人,2021)等。
然后,从预训练中分别对Pile的各个区域进行消融,以了解其缺失的影响。为了评估它们在下游域性能上的缺失,我们选择明确使用问答任务,因为有各种类似格式的评估数据集可用。对于这些问答数据集,我们只在流行的QA数据集Natural Questions(Kwiatkowski et al.,2019)上进行训练,以教授模型一般任务。对于评估,如第2.3节所述,我们使用UnifiedQA(Khashabi et al.,2020)和MRQA(Fisch et al.,2019)的数据集来评估每个预训练模型在给定的“域”或具有相似源特征的数据集集上的表现。我们将UnifiedQA和MRQA的问答数据集划分为五类。在其集合中表示维基百科文档的数据集被分配到Wiki类别,具有抓取的web文档或新闻的数据集则被分配到web类别,依此类推。数据集可能属于多个类别,这取决于它们是如何构建的。问答评估分区如表9所示。最后,我们对每个问答数据集进行评估,并报告每个类别的平均F1分数。
表8:Pile数据源的域划分Pile包含22个不同的数据源,我们手动将其划分为9个主题相似的域集群。
表9:UnifiedQA(Khashabi et al.,2020)和MRQA(Fisch et al.,2019)收集的问答评估数据集的划分。为了评估预训练策略在不同文本域上的性能,我们将数据集分配到与其源材料相对应的类别中:基于网络的、维基百科的、学术的、生物医学的或和/书籍)。某些数据集也专门设计用于测试高级常识推理,或使用对比集的决策边界(Gardner等人,2020)。数据集可以属于多个类别。
D数据整理对数据构成的影响:进一步分析
D.1特征定义
如第3节所述,我们计算了所有数据点的一组特征,以更好地了解每次消融的分布变化。功能的完整列表如下:
•污言秽语、毒性和性暗示API将文本分类为违反或通过这些类别中的每一个,如第2.2节所述。
•文本质量如第2.2节所述,PaLM(Chowdhery et al.,2022)和GLaM(Du et al.,2021)中使用的基于单词的线性分类器用于区分看起来像维基百科和书籍的文本与其他文本。
•个人身份信息(PII)一个类似于谷歌云NLP(2023a)的基本分类器,可以检测四类个人身份信息的存在:姓名、电话号码、地址和电子邮件。
•可读性Flesch-Kincaid可读性测试(Kincaid et al.,1975)适用于每份文档,根据每句话的字数和每单词的音节数为文档指定等级。
•以字符为单位测量的平均字长。
•文档长度以字符为单位。•非ASCII字符以文档中所有字符的百分比度量。•所有大写字母单词占文档中所有单词的百分比。•类型token比率衡量词汇多样性,或唯一token与总token的比率(Bender,2013)情绪由类似谷歌云NLP(2023b)的分类器分配的分数,评估文本的整体情绪,从积极到消极。
预训练数据中的时间信息当我们在四个不同的年份收集C4的版本时,每个版本也可能包含前几年的数据。我们通过统计每个语料库中2000年至2025年的日期实例来估计预训练数据中的时间信息。我们确实看到,有很多关于收藏年份的提及,其中很快就减少了大约5年(见图10)。这必然是一个有限的实验,因为2016年写的一篇文章可能仍然会提到2019年未来发生的事情。然而,由于网站创建日期不是网站抓取的一部分,我们将其用作估计网站创建日期的代理。
D.2Pile域质量过滤器的分解
虽然质量过滤器通常应用于C4等大型异构数据集,但我们也在Pile上运行了质量分类器,以更好地了解哪些类型的数据点实际通过了质量过滤器阈值。结果如图11所示。
图9:C4和Pile之间的特征差异,以及C4条高度的时间快照表明了每个数据集的平均特征值,PII类别除外,它显示了包含该PII类型的数据点的分数。这些数字是数据集和基线之间的分数差,在本例中为C4。灰色虚线和灰色数字显示基线的实际值。
图10:每个C4时态预训练版本中的日期实例。
图11:对多个质量截断值进行过滤后的Pile中域的细分。
E实验结果
在本节中,我们列出了毒性、质量和时间降解评估的原始结果,涵盖了几个评估数据集。
E.1时间退化结果
Luu等人(2021)测量了由于微调和评估偏差导致的时间退化。在尝试评估专门用于预训练的未对准效应之前,我们模拟了他们的微调实验。图12显示了我们的结果,证实了(Luu等人,2021)
图12:微调中的时间错位如何影响任务性能的复制(Luu等人,2021)。与图3相比,图3显示了预训练未对准的影响,该图侧重于微调未对准的更为成熟的影响。
接下来,我们分享原始评估结果,从中我们计算了微调和预训练的时间退化值。这些包含使用给定的预训练年份(y轴)、微调年份(y轴线)和评估年份(x轴线)产生的分数的横截面。这些结果,表10至13,提供了LM-XL和LM-Small的比较结果。
表10:左:PubCLS临时任务的完整结果,来自(Luu等人,2021)。此任务评估新闻文章来源分类,以准确性衡量。右图:NewSum摘要任务时间分割的完整结果来自(Luu et al.,2021),在Rouge-L中进行了评估。
表11:Luu等人关于TwiERC时间任务划分的完整结果。(2021)。此任务评估Twitter命名实体分类的准确性。
表12:AIC时间任务划分的完整结果(Luu等人,2021)。这项任务评估了语义学者的科学文章在ICML或AAAI上发表的文章的分类,并以准确性进行了衡量。
表13:Luu等人的PoliAff时间任务划分的完整结果。(2021)。这项任务评估推文中政治派别的分类,以准确性为衡量标准。
E.2毒性和质量过滤结果我们还提供了毒性和质量过滤器实验的完整结果,如第5节所示。将毒性过滤器应用于其数据的模型的评估结果如图5(左)和图13所示,表14中给出了全部细节。将质量过滤器应用于其数据的模型的评估结果如图5(右)所示,并在表15中详细说明。
图13:毒性过滤Pile降低了LM XL识别毒性和生成毒性文本的能力,就像毒性过滤C4一样。
表14:毒性过滤预训练数据集降低了LM XL识别毒性和生成毒性文本的能力。这些结果如图5和图13所示。
表15:对预训练数据集进行质量过滤降低了LM XL识别毒性的能力,但令人惊讶地增加了毒性的产生。这些结果如图5所示。