阅读论文—GPT3Mix Leveraging Large-scale Language Models for Text Augmentation

  引用:Yoo K M, Park D, Kang J, et al. GPT3Mix: Leveraging large-scale language models for text augmentation[J]. arXiv preprint arXiv:2104.08826, 2021.
  论文地址:https://arxiv.org/abs/2104.08826
  代码地址:https://github.com/naver-ai/hypermix

1 背景与问题

在Brown等人(2020)的开创性工作中,通过基于提示的上下文学习,大规模语言模型,特别是 GPT-3,已被证明在 zero-shot 和 few-shot 学习任务上取得了更好的性能。In-context learning 利用 prompt,通常由任务描述和几个例子组成,在没有微调成本的情况下解决 unseen tasks。

然而,这些基于提示的大规模语言模型推理方法有几个缺点。
首先,明文训练示例的数量受到固有语言模型架构所允许的最大提示长度的限制。
其次,基于提示的方法需要对大规模语言模型进行在线推理时成本过高。
最后,基于提示的方法摒弃了传统的机器学习技术,使其与现有的已建立的微调方法大多不兼容。

1.1 解决办法

为了克服这些限制,本文提出了一种更实用的解决方案,将大规模语言模型用于下游 NLP 任务。在本文提出的框架中,如图 1 所示,大规模语言模型不用作预训练模型,用于进一步的域自适应微调或基于提示的上下文学习的主干,而是用合成文本数据注入原始训练集。


figure 1

本文提出了 GPT3Mix,这是一种利用 GPT-3 等大规模语言模型从真实样本的混合中生成合成但超逼真的文本样本的方法。 GPT3Mix 从特定于任务的训练数据中提取少量样本句子,将这些样本嵌入到提示中,并生成受样本句子影响的增强混合句子。

简言之,本文所述方法通过生成受现有数据样本启发的合成示例来实现
(1) 数据增强(data augmentation); (2) 通过使用大型语言模型预测的软标签(soft-labels)训练较小的分类模型进行知识蒸馏(knowledge distillation)。

2 相关工作

2.1 Knowledge Distillation

Knowledge distillation (Phuong and Lampert, 2019) is a technique that trains a smaller student classifier on the outputs of a larger teacher classifier.
通过利用大规模语言模型预测的软标签,本方法有助于将知识转移到下游分类器。

2.2 Text Augmentation

文本扩充是指在不改变类标签的情况下扰乱语言空间,以提高下游模型的稳健性和可推广性的方法。
当前文本增广有两种风格:shallow augmentation 和 deep augmentation。
浅层数据增强技术将局部看似合理的小噪声注入语言空间(单词或短语),希望扰动产生语言上可接受的样本,同时保持标签的一致性。两个例子是EDA(Wei和Zou,2019)和同义词替换(Zhang et al.,2016)。
另一类扩充技术采用外部语言模型( external language models )来提高全局一致性和一致性。例如 BERT、variant BART 等。

2.3 Large-scale Language Models

Prompt-based NLP 的方法,本质上是小样本学习器,能通过自然语言文本进行控制。

3 GPT3Mix

Mixup (Zhang et al., 2017) 是一种简单的学习技术,已被证明在防止记忆并提高视觉域的泛化性方面是有效的。受该技术的启发,我们提出了 GPT3Mix 作为一种强大而简单的方法,可以根据数据分布生成高度流畅的合成样本。

所提出的方法(图 2)包括三个部分:
(1) selecting examples from the dataset,
(2) constructing a GPT3Mix prompt from the selected examples and meta-information about the dataset,
(3) extracting augmentation from the language model generation.

Figure 2

3.1 Example Selection

为简单起见,本文将下游任务限制为文本分类任务。
给定一个分类任务 T ,训练数据集 D 是一组文本 x 和相关的标签 y 对:D = {(x_i, y_i) | 1 ≤ i ≤ N }。我们从 D 中随机选择 k 个示例作为 anchors。
大规模语言模型对提示中 choices 和 the order of examples 高度敏感(Reynolds 和 McDonell,2021;Zhao 等人,2021)。
本文简单使用均匀分布来选择 K 个示例:p_s(i) = 1/N,设置 k = 2 来模拟 Mixup 。

3.2 Prompt Construction

给定一组从 D 采样的提示示例 De = {(x_i, y_i) | 1 ≤ i ≤ k},本文将提示制定如下。GPT3Mix 提示由描述头 D_e 的文本标签对的枚举和增强前缀组成。提示的一个示例见附录(§A)。

附录 A

附录 A

  1. Text Type T : Meta-type of the input textx. For example, in movie review sentiment analysis, the text type corresponds tomovie review.
  2. Label Type L: Meta type of the label class y. For the example above, the label type corresponds to sentiment.
  3. Label-token Verbalizer v : Y → V: Similar to the concept of verbalizers in the work of Schick and Schütze (2020b), the one-to-one mapping between the label classes y ∈ Y and word tokens in the language model's vocabulary V 3 is needed to formulate the prompt.

3.3 Augmentation Extraction

与其他基于提示的方法一样,增强文本 x' 和标签 y' 在提示作为自然文本后连续生成。示例中预定义的提示模板表示语言模型以生成具有结构的 (x′, y′),使我们能够通过模式匹配提取相应的值。Joint text 和 label generation 还约束生成的文本与正确的标签关联。
如提示所示(§A),本文特殊的提示设计确保了对应于 v(y′)的标签标记在 x 之后生成。

由于大规模语言模型是 few-shot learners(Brown et al.,2020),于是我们利用GPT-3来进行 pseudo-labeling。公式如下:
p (y′ | x′) ∝ p_{LM}(v_T(y′) | P (x′, S_T))
上述方法在一次扩充操作中有效地结合了文本扰动、伪标记和知识提取。在实践中,使用交叉熵损失将具有伪标签的扩增样本与真实样本一起训练。

4 实验

在以下的 6个分类基准上评估了本文的方法:
SST-2 斯坦福情感分类
CR Amazon用户产品评论
COLA 句子集
TREC6 开放域问题分类
MPQA 问答极性
SUBJ 二元电影评论

experimental settings

本文通过对训练集进行子采样来对人工数据稀缺任务进行下游分类实验。对于每个实验,我们在训练集上执行类平衡子样本,通过固定 5 个不同数据种子上的子样本并在子样本上重复增强过程和下游分类实验 10 次来解释我们实验中的统计方差。

Data Augmentation Experiments

本文的方法与与简易数据增强(EDA)(Wei and Zou, 2019)和反翻译(BT)(Fadaee et al., 2017)进行了比较。对于反译基线,使用在 Fairseq 提供的 WMT16 英德语料库上训练的 Transformer 架构将文本翻译成德语和从德语翻译出文本(Ott et al., 2019)。

表 1 给出了数据稀缺文本扩充的结果。
Table 1

Full Data Experiments

本文同时还进行完整的数据集数据增强实验,以确认 GPT3Mix 即使在特定任务的数据丰富的情况下也能提供优势。我们用来自 GPT3Mix 的合成样本的 1:1 比例扩充了完整的SST-2数据集,我们在下游分类上的实验表明,在表现力更强的架构中观察到更大的改进幅度。

Ablation Study

4.4.1 Number of Prompt Examples

首先研究 GPT3Mix 提示(k)中示例的数量对下游增强性能的影响。GPT3Mix 要求 k≥2 以有效地混合现有样本并生成插值文本样本。然而,为每个提示提供一个示例(k=1)并期望 GPT-3 引入给定示例的扰动或转述可能是可行的策略。我们对SST-2数据集进行了 k 的变化,并观察了下游性能(表2)。
Table 2

4.4.2 Language Model Capacity

OpenAI提供了四种不同容量的GPT-3:ada、babbage、curie和davinci7,按模型复杂性的增加顺序排列。在本研究中,扩增率设置为5。正如预期的那样,结果(表3)表明,拥有更大、更具表现力的语言模型有利于数据扩充。
Table 3

4.4.3 Task Specification

We are also interested in how the design choice of task specification for prompt construction affects the downstream performance. 在这项研究中,我们使用 curie 作为扩充语言模型,扩充率为3。如表 6 。语言模型利用数据集的元信息来生成更好的数据样本,因此提示设计对增强质量有显著影响。
Table 6

4.4.4 Pseudo-labeling

我们从大规模语言模型预测的标签标记概率中研究了使用伪标签(Pseudo-labeling)的效果,比较了当使用从序列宽波束搜索优化的标签 tokens 时的增强性能( the label tokens optimized from the sequence-wide beam search)。SST-2的结果(表5)表明,与序列优化的标记相比,使用软标记具有强大的优势。硬标签和软标签之间的性能差距可以被认为是利用语言模型联合预测的类分布作为合成样本的知识蒸馏形式的好处(Kim and Rush, 2016)。curie 作为 GPT-3 模型,扩增率为5。
Table 5

4.4.5 Qualitative Analysis

语言模型对提示中示例的选择和顺序敏感,导致程序生成显示出偏差(Zhao et al., 2021; Reynolds and McDonell, 2021)。SST-2数据集的扩增样本如表 4 所示。
Table 4

我们注意到合成样本的情绪强烈依赖于在示例的类标签上。当两个例子都是积极的或消极的时,增强样本的情绪会受到严重影响,从而产生相应的偏差。在混合类标签的情况下,得到的类分布不那么平坦。
增广样本遵循了与示例文本相似的句法和语义结构。如第一种情况所示,示例的简短和短语结构被很好地翻译成生成的样本,即语言模型能够从上下文示例中学习,即使是生成和伪标记任务。在随后的情况下也观察到了类似的模式,即使是实例的实体和主体也会受到干扰,并被带入合成样本中。

5 贡献

本文的工作贡献总结如下:

  1. 建议在现有的 PLM 微调范式之上使用大规模语言模型进行基于提示的数据增强,以利用这两个世界的优点。
  2. 本文提出了 GPT3Mix,这是一种简单但有效的文本增强技术,它引出大规模语言模型所拥有的知识和语言能力。
  3. 我们的详细分析有助于理解提示驱动的数据增强背后的机制,使我们能够更好地控制生成和数据增强行为。

\boxed{\frac{08}{06/2023}}

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 230,527评论 6 544
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 99,687评论 3 429
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 178,640评论 0 383
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 63,957评论 1 318
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 72,682评论 6 413
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 56,011评论 1 329
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 44,009评论 3 449
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 43,183评论 0 290
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 49,714评论 1 336
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 41,435评论 3 359
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 43,665评论 1 374
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 39,148评论 5 365
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,838评论 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 35,251评论 0 28
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 36,588评论 1 295
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 52,379评论 3 400
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 48,627评论 2 380

推荐阅读更多精彩内容