Transformer-XL 语言模型

Transformer 是 Google 提出的一种先进的 NLP 模型,在很多任务上都取得比传统 RNN 更好的效果。Transformer 使用了 Self-Attention 机制,让单词之间可以直接建立联系,因此编码信息和学习特征的能力比 RNN 强。但是 Transformer 在学习长距离依赖信息的能力仍然有一些限制,Transformer-XL 是一种语言模型,可以提高 Transformer 学习长期依赖信息的能力。

1. vanilla Transformer

在介绍 Transformer-XL 之前,我们先了解另一种基于 Transformer 的训练语言模型的方法 vanilla Transformer,对 Transformer 不熟悉的童鞋可以参考之前的文章《Transformer 模型详解》。vanilla Transformer 在论文《Character-Level Language Modeling with Deeper Self-Attention》中被提出,下面介绍 vanilla Transformer 的训练过程和评估过程,从而了解其缺陷。

1.1 vanilla Transformer 训练过程

vanilla Transformer 训练过程

上图是 vanilla Transformer 训练语言模型的过程,可以看到,vanilla Transformer 训练语言模型时会根据之前的信息预测下一刻信息,例如在得到 [x1, x2, x3] 后可以预测 x3 对应的输出,此时会将 x3 之后的信息 mask 掉。

但是 vanilla Transformer 训练的语言模型存在一个缺陷,它训练的过程中是将预料分为一段段训练的,上图的训练数据分成两个 segment [x1, x2, x3, x4] 和 [x5, x6, x7, x8]。在训练第二个 segment 时,模型并不知道第一个 segment 的信息。例如有两个相连的句子,"我有一只猫" 和 "它不喜欢吃鱼",如果 vanilla Transformer 把这两个句子分为两个 segment 分别训练,则训练第二个句子的时候,模型并不知道句子中的 "它" 的确切意思。

1.2 vanilla Transformer 评估过程

vanilla Transformer 评估过程

上图是 vanilla Transformer 在评估时的过程,可以看到,在预测输出的时候,模型每次需要向右移动一步,并根据新的上文序列预测此刻单词,例如第一幅图会根据 [x1, x2, x3, x4] 预测下一刻输出,第二幅图会根据 [x2, x3, x4, x5] 预测下一刻输出。

vanilla Transformer 会使用当前序列并从头开始预测,导致预测速度比较慢,且没有利用到更早的信息。例如上面的第二幅图,使用 [x2, x3, x4, x5] 进行预测,没有使用 x1 的信息。从头预测是指 Transformer 会走一遍训练时候的流程,先使用 x2 预测 x3,然后用 x2, x3 预测 x4,最后用 x2, x3, x4, x5 预测下一刻输出。

1.3 vanilla Transformer 缺陷

长期依赖受限:vanilla Transformer 将数据分段进行训练,每个 segment 中单词能得到的依赖关系限制在本这个 segment 中,无法使用长期依赖的信息。

分段数据语义不完整:vanilla Transformer 将数据分段的时候,是直接按照固定的长度划分语料库里面的句子,而不考虑句子的边界,使得分割出来的 segment 语义不完整。也就是说会将一个句子分到两个 segment 里面。

评估时候速度慢:在评估模型时,每预测一个单词,都要将该单词的上文重新计算一次,效率低下。

2. Transformer-XL

Transformer-XL 是 Google 在 2019 年提出的一种语言模型训练方法,为了解决 Transformer 长期依赖的问题,其论文是《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》。Transformer-XL 主要有两个创新点:

第一、提出了 Segment-Level Recurrence,在 Transformer 中引入了循环机制,在训练当前 segment 的时候,会保存并使用上一个 segment 每一层的输出向量。这样就可以利用到之前 segment 的信息,提高 Transformer 长期依赖的能力,在训练时前一个 segment 的输出只参与前向计算,而不用进行反向传播。

第二、提出 Relative Positional Encodings,Transformer 为了表示每一个单词的位置,会在单词的 Embedding 中加入位置 Embedding,位置 Embedding 可以用三角函数计算或者学习得到。但是在 Transformer-XL 中不能使用这种方法,因为每一个 segment 都会存在相同位置的 Embedding,这样两个 segment 中同样位置的 Embedding 是一样的。因此 Transformer-XL 提出了一种新的位置编码方式,相对位置编码 (Relative Positional Encodings)。

2.1 Segment-Level Recurrence

Segment-Level Recurrence

上图是 Transformer-XL 的训练过程,可以看到 Transformer-XL 在训练一个新的 segment 时,会利用前一个 segment 的信息,如果内存或显存允许,也可以保留多个 segment。图中绿色的线段表示当前 segment 利用前一个 segment 的信息。

因此在训练一个 segment τ+1 的时候,Transformer-XL 中第 n 层的输入包括:

  • segment τn-1 层的输出,图中绿色线段,不计算反向梯度。
  • segment τ+1n-1 层的输出,图中灰色线段,计算反向梯度。

训练第 τ+1 个 segment 的时候,Transformer-XL 第 n 层的输出用下面的公式计算:

可以看到在训练第 τ+1 个 segment 的时候,会使用前一个 segment 的信息计算 k, v 向量。注意计算第 n 个 Transformer 层的向量 q 时只利用了第 τ+1 segment 的信息,即第 n-1 层的输出。

上图是 Transformer-XL 评估阶段的示意图,在上一节我们了解到 vanilla Transformer 在评估的时候,一次只能往右前进一步输出一个单词,并且需要重头开始计算。而在 Transformer-XL 中,每次可以前进一个 segment,并且利用前面的 segment 预测当前的输出。

Transformer-XL 可以支持的最长依赖近似于 O(NL),L 是一个 segment 的长度,N 是Transformer 的层数。Transformer-XL 支持的最长依赖如上图绿色区域所示。

2.2 Relative Positional Encodings

传统的 Transformer 使用位置 Embedding 来表示单词的位置,位置 Embedding 可以用三角函数计算或者通过训练得到。但是在 Transformer-XL 中利用了前一个 segment 的信息,如果采用传统的位置 Embedding 会导致模型无法区分当前 segment 和前一 segment 的单词,如下公式所示。

E 表示单词的词向量,U 是位置向量,可以看到当前segment τ+1 的词向量与前一个 segment τ 的词向量相同位置的位置 Embedding 都是一样的。模型就不能判断某一个位置的词是属于哪个 segment。

为了解决这一问题,Transformer-XL 提出了相对位置 Embedding,首先看一下传统 Transformer 中计算 attention 分数的方法:

上面是 Transformer 计算 attention 分数的方法,Ui 表示第 i 个位置的 Embedding,Uj 表示第 j 个位置的 Embedding。Transformer-XL 去除了公式中的 Ui 和 Uj,因为 Ui 和 Uj 是对于固定位置的,所以 Transformer-XL 对公式进行如下改变。

Transformer-XL 将 Attention 分数计算公式进行了一些改变,去掉了里面所有绝对位置 Embedding U 都去掉了。

  • 将公式中 (b) (d) 项中计算向量 kUj 替换成了相对位置 Embedding Ri-j,即只关心单词之间相对的位置。R 使用三角函数公式计算。
  • 在公式的 (c) (d) 项里面,向量 q 的计算部分替换成了两个可训练的向量 uv,因为查询向量 q 对于每一个查询位置都是一样的,意味着无论查询位置在哪里,对不同单词注意力的偏向应该保持不变。
  • k 向量的权重变换矩阵 Wk 分成了两个,Wk,E 和 Wk,R,分别用于单词内容和单词位置。

2.3 Transformer-XL 整体计算公式

经过上述两个机制 Segment-Level Recurrence 和 Relative Positional Encodings 后,Transformer-XL 的整体计算公式如下。

3. Transformer-XL 总结

Transformer-XL 在 vanilla Transformer 模型基础上改进,引入了 Segment-Level Recurrence 和 Relative Positional Encodings 两种机制使 Transformer 具有学习长期依赖的能力。Transformer-XL 可以支持的最长依赖近似于 O(NL)。后续 Google 提出的 XLNet 模型也利用 Transformer-XL 的结构。

参考文献

Character-Level Language Modeling with Deeper Self-Attention
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Transformer-XL 代码

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,923评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,154评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,775评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,960评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,976评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,972评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,893评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,709评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,159评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,400评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,552评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,265评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,876评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,528评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,701评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,552评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,451评论 2 352