Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified Multilingual Prompt

虽然现有的大部分工作都集中在单语prompt上,但研究了多语言PLM的多语言prompt,尤其是在zero-shot setting下。为了减轻为多种语言设计不同prompt的工作量,我们提出了一种新的模型,该模型对所有语言使用统一的提示,称为UniPrompt。与离散prompt和soft-prompt不同,UniPrompt是基于模型的而与语言无关的。具体来说,UniPrompt由多语言PLM初始化,以生成独立于语言的表示,然后与文本输入融合在推理过程中,可以预先计算prompt,这样就不需要额外的计算成本。为了配合统一prompt,我们提出了一种新的目标标签词初始化方法,以进一步提高模型跨语言的可移植性。大量的实验表明,我们提出的方法在不同语言中的性能明显优于baseline。

UniPrompt基于模型,与语言无关。它由一个以英语prompt为输入的多语言PLM初始化,并通过多语言PLM的可转移性产生与语言无关的representation。在推理过程中,可以预先计算prompt,这样就不会引入额外的计算成本。通过这种方式,我们可以减轻不同语言的prompt engineering的影响,同时保留PLMs的能力。为了更好结合统一提示,我们提出了一种新的标签词初始化方法,而不是使用PLM中的语言模型头。这进一步提高了模型跨语言的可移植性。

1. UniPrompt

对于templete, use two independent encoder towers, template towercontext tower模板塔用于编码prompt的模板,而上下文塔用于原始文本输入。两个塔都由多语言PLM的底层初始化。然后,将模板和上下文的表示连接起来,作为fusion tower的输入。fusion tower由多语言PLM的顶层初始化。研究发现,预训练语言模型的较低层次与语言迁移有关,而较高层次与实际语义有关,因此,它可以摆脱模板对特定的语种的依赖,但也保留了prompt的能力,以激活PLM的潜在知识

由于prompt tower的输出可以在推理之前预先计算,因此该模型不会在推理阶段引入额外的参数或计算成本。对于标签词,我们使用人工标记,因此它与语言无关。与这些工作不同,我们提出了一种新的标签词初始化方法。具体来说,我们最小化了label words和sentence embeddings之间的距离,微调前的句子嵌入。这是通过简单平均sentence embeddings作为同一类别的label words。这样,标签词不仅有一个良好的起点,而且与语言无关。

2. Two-tower Prompt Encoder

跨语言prompt,如果直接使用词汇表中现有的tokens,则会偏向于某些特定的语言,因此在这个任务中设计模板的第一个目标是:模板不能依赖于任何特定的语言,实现这一目标的一个直观想法是使用soft-prompt,这是与特定语言无关的人工标记。然而:i)由于在few-shot场景中数据量很少,因此无法充分训练;ii)未在pretrain阶段出现。因此,可能无法由prompt激活PLMs的潜在知识。鉴于,对于软提示的问题,可以得出设计模板的第二个目标:最小化预训练和提示调整之间的差距。

对于soft-prompt的问题,可以得出设计templete的第二个目标:最小化pre-training 和 prompt-tuning之间的差距

为了实现这些目标,我们现在描述我们对prompt进行建模的方法,称为two-tower prompt encoder。根据之前的工作,PLMs的底层对特定语言标记/语法相关的信息进行编码,而顶层对语义信息进行建模。因此,我们将PLM编码器的底部1-p层建立two independent encoder towers,分别对模板和上下文进行编码。在形式上,我们可以将其定义为

然后,我们concatenate the outputs of the two enocders 作为fusion tower的初始化输入

在multilingual PLM帮助下, the template tower 帮助template在languages上更好的迁移.

3. Initialization of Soft Label Words

对于label words,我们使用真实tokens,由于针对于特定的语言任务,因此采用soft label words,即人工标记,以实现语言独立。为了进一步减少soft label words的预训练和微调之间的差距,提出了一种新的标签词初始化方法

如果将输出投影矩阵视为label words的word embedding,则微调的目标是最小化encoder输出和相应label word embedding的距离。因此,如果label word embeddings已经接近编码器输出,这将是模型的良好起点,尤其是在少数镜头设置中。

基于此,我们建议计算所有训练样本的encoder outputs,根据它们的labels对它们进行分组,然后对每组中的所有编码器输出进行简单平均,以初始化标签词

注意到对于few shot learning,预计算encoder outputs的计算成本很小。这样,在不改变PLM主体的情况下,我们只使输出层适应下游任务。换句话说,这些模型将对下游任务具有良好的优先级,同时保留来自PLM的知识。我们为每个label i构造soft-label Li,并根据label将训练样本分组到Ci中。然后,我们将训练示例与相应的模板连接起来,以计算编码器输出。我们取每组编码器输出中[mask]表示h(c,m)的平均值来初始化label word。label word Li的embedding可以定义为

Avg means average pooling, Ci is the set containing the training cases with label i.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容