Transformer (变形金刚,大雾) 三部曲:RNN 的继承者

讲讲最近深度学习里面的后期之秀吧,Transformer(和变形金刚没有半毛钱关系)

话说自公元二零一三年,深度学习网络一枝独秀,自机器学习王国脱颖而出,带动了人工智能领域的发展。其中它最主要的两大家,卷积网络(CNN)循环网络(RNN),因其独特的性质,分别在计算机视觉和自然语言处理领域得到广泛使用。

然而这两大家却都还是上世纪就被提出来了,本世纪虽有创新,却也逃脱不了这两大家的干系。前有 RNN 的变种树状的递归网络 (Recursive Neural Network),后有卷积网络里的 ResNet,InceptNet 这些变种,外加对它们的一些训练技巧。

于是乎,说到学习深度学习,实际上主要就在学习 CNN 和 RNN。近来,Google 提出了一种新的架构 Transformer,彻底颠覆了过去的理念,没用到 CNN 和 RNN,主要是一种叫做 Attention (注意力)机制的结构组成。用更少的计算资源,取得了比过去的结构更好的结果

提出 Transformer 的论文,Attention is All You Need (你只需要注意力就行) 也在去年被封 NLP 领域的年度最佳论文。于是 Transformer 一下子就火起来了,在很多任务有取代 RNN 的趋势。之前自己投的论文也被审稿人吐槽怎么不用 Transformer.

而本篇要介绍的就是 Transformer,还有之后比较成功的两个变体,Weighted Transformer 以及 Universal Transformer.

进入正题之前,先来介绍一下 RNN 序列到序列(seq2seq) 架构,以及注意力机制。这样更便于我们理解之后的 Transformer 如何取代它。

经典架构:RNN + Seq2Seq + Atten

之前 Twitter 上有人开过玩笑,深度学习使得 NLP 领域太过简单粗暴,无论什么问题用 seq2seq + atten 都能解决。这里说的 seq2seq 是 sequence to sequence 的简称,一般默认的结构是由 RNN 组成的编码器和解码器,再加上在之间的注意力机制 (atten)。

关于 RNN 的详细知识参考我之前的文章《吴教授的循环神经网络(RNN)课堂》,而关于 seq2seq 也可以参考《神经机器翻译概览:基准模型与改进(上)》

首先需要知道,在没有注意力机制之前,用 seq2seq 架构翻译是这样的。先是编码器,按照顺序处理源句,得到一个描述(representation)向量,然后解码器利用这个描述,来翻译出整个句子。然而这导致了信息的大量丢失,特别是对一些长的句子,和有不同语序的语言对。比如下面这个。

可以发现,要把 “like” 翻译成 “好き(suki)”,得经历很长的距离,这中间会混入噪音,还会丢失有用信息,所以很难翻译准确。

即使之后,加了部分注意力机制来辅助翻译,也会因为对关系的捕捉不足,而出现翻译失误。因为在这样的翻译任务中,需要发现的关系有三种:

  1. 源句内部的关系

  2. 目标句内部的关系

  3. 源句和目标句之间的关系

而这样的 seq2seq,只在捕捉源句和目标句之间关系用注意力机制进行了捕捉,而源句内部和目标句内部还是在用 RNN,从一边到另一边这样捕捉关系(好一点的用双向 RNN),但这样并不够直接,特别是对一些距离远的关系捕捉很差。

除了对远距离关系难以学习的不足以外,RNN 还有一点不足,那就是训练慢。因为它默认是按时序来进行处理的,所以得一个个词从左到右看过去,这样导致 RNN 不能像 CNN 一样,充分利用 GPU 的并行运算优势。

值得一提的是,为了解决 RNN 的训练问题,Facebook 的研究人员有提出 CNN 的 seq2seq 架构,使得训练速度更快,但是性能并没有得到太大的提高。

Transformer:没错,你只需要注意力机制

因为这只是科普文,所以我会尽量用自己的理解来说,当然能读懂公式是最好的。

首先先说说自己对 Transformer 理解,我认为它最大的改进有如下几点:

  1. 提出用注意力机制来直接学习源语言内部关系和目标语言内部关系,而不是像之前用 RNN 来学;

  2. 对存在多种不同关系的假设,而提出多头 (Multi-head) 注意力机制,有点类似于 CNN 中多通道的概念;

  3. 对词语的位置,用了不同频率的 sin 和 cos 函数进行编码。

所以之后我也就围绕着这三点来讲,想了解更具体,还是去读论文和代码吧。

首先说说核心构件,多头注意力机制。先来看看注意力机制的基本组成,如下图。

注意力机制的运算需要三部分,querykeysvalues。一般来说 keys 和 values 相同,便于更广义上的理解分成两个。计算过程大概是这样:

  1. 先用 query 和所有的 keys 值相乘(也能用其他一些运算),于是每个 key 都能得到一个值

  2. 上面得到的值可以看做是每个 key 的权重,为了使得权重加起来等于1,这里需要用 softmax 压一下得到注意力评分(attention score)

  3. 最后用评分和相对应的 value 值相乘,决定哪个 value 比较重要,再相加,就得到想要的注意力向量了。

论文中用到的注意力机制公式如下,Q,K,V 分别是 query,key,value 的矩阵,除以根号 d 是为了更好的数值运算:

了解了一般的注意力机制,那么多头注意力机制就很好理解了。它相当于有多组这样的注意力机制,对 Q K V 之间的不同关系进行提取,最后再把得出的结果拼接起来。为了保证多样性,还给每组注意力机制增加了不同的线性变换层来先处理 Q K V。

公式表达:

之后来看看论文中 Transformer 的整体结构。

这张图,特别想直接摔电脑,但现在我们只需要看箭头和注意力机制模块就可以了。会发现,对应之前提到的三种关系:源句内部关系,目标句内部关系,源句和目标句之间关系,多头注意力机制也刚好有三个,分别学习这三种关系

首先从中间把整张图切开,左边有输入 (input)的看做是 seq2seq 的编码器,而右边就是解码器了。

来看看编码器,非常简单。

首先是输入源句,转换成向量,加入位置编码,然后利用多头注意力学习源句内部的关系,传入一个前向层(Feed Forward),这是为了让网络内的向量互动更多,学到更复杂的关系。其余一些跳跃的箭头,Add 和 Norm 什么的只是训练技巧。

之后看解码器:

image.png

比编码器要复杂些,但也就中间多了个注意力模块。我们输入目标句子,转化成向量,加入位置编码,然后用第一个多头注意力机制学习目标句内部之间的关系,之后将向量和编码器端传过来的向量一起传入第二个注意力机制,来学习目标句和源句之间的关系,再如编码器一样传入前向层。最后在一个线性变换之后,用 softmax 得出概率向量,并给出预测的值。

这就是最初的 Transformer 模型了,那它实际的表现呢。在机器翻译任务上,相比起之前的模型,它取得了更高的 BLEU 分数,同时却只用了更少的计算资源(英语法语任务差距达到几十倍)。

Weighted Transfomer: 加权就是加强,没错就是这样

在最初的 Transformer 后不久,最成功的 Transformer 的变种模型便是,Weighted(加权的) Transformer。

在整体上架构和上面提到的 Transformer 差不多,最主要的不同是对注意力机制的处理。在 Transformer 中,先通过多头注意力机制来学习多个不同方面特征,然后拼接起来传给一个线性层。

而 Weighted Transformer 则是通过两种权重值,并且将一些不同的线性层放入注意力机制中,使得各个头(head)更加多样,互动更加强。

两个权值分别是κ和α,κ 是在多头注意力机制后,对每个头进行权值加成,论文中称为 concatenate weight (拼接权重,但我并没发现有对多头进行拼接的操作,有懂的可以告诉我。) 而 α 是将 κ 加权处理后再经过一层前馈处理(就是上面的 Feed Forward,FFN)的值再次进行加权,最后将这些头直接加起来。

公式如下:

这篇论文中将这种注意力机制叫做,multi-branch attention (多支注意力机制)。值得注意的一点是,在 Weighted Transformer 中并不是三处都是用相同的多支注意力机制,在解码器捕捉目标语言内部关系的注意力机制就只用了普通的注意力机制,不知道是刻意为之还是什么。

Universal Transformer: 通用 Transformer

最近 Transformer 又得到新的突破,在谷歌大脑实习的 Mostafa Dehghan 提出更强大的 Transformer 模型:Universal Transformer,比之前的 Weighted Transformer 更进一步。

首先是比起前两篇更加规范化了,模型里面的基本模块,主要由多头注意力机制和转换函数组成。这篇论文中最主要的 idea 是,Transformer 最主要是利用注意力机制通过查看相关信息,对每个位置词语的向量进行不停的精炼。论文中几个创新点是:

  1. 基本模块很简洁,多头注意力机制加转换函数,不停堆叠对词语向量进行精炼;

  2. 每一次精炼就是一个 step ,加上句子里的位置,就会产生一个二维的位置坐标,论文中对这个位置进行了向量化,并且加入了运算中(但是我并没有懂这样做的用途,因为使用的只有最后一层的);

  3. 假设一句话中每个词需要精炼的程度不一样,利用 Adaptive Computation Time 方法来使得对需要多次精炼的多次精炼,而对已经精炼足够多次的不予处理。

基本模块中的公式如下:

而其中 t 等于 0的时候,也就是 H_0 的时候表示的就是词向量,之后按照上面的公式计算。

在对二位坐标进行编码时,使用的是如下公式:

关于 Adaptive Computation Time 可以读这篇论文《Adaptive computation time for recurrent neural networks》。

实验结果对比

关于这三个 Tranformer 模型,在英德翻译上的对比如下表:

可以看到这三个模型依次变得更强。当然 Universal Transformer 还有其他一些强处,比如说在之前的 Transformer 不擅长的一些任务上也取得了很好的成绩,具体查看论文。

结语

我相信,未来 Transformer 将会成为趋势,成为主流的模型,因为众多实验都证明了它的有效性。或许之后,RNN 会变得像 Sigmoid 激活函数一样,成为教科书上的“经典”,也或许 RNN 会得到改进在一些特定任务上取得到更好的应用吧。

参考

  1. Paper Dissected: “Attention is All You Need” Explained

  2. Attention Is All You Need

  3. WEIGHTED TRANSFORMER NETWORK FOR MACHINE TRANSLATION

  4. Universal Transformer

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容

  • 近日,谷歌官方在 Github开放了一份神经机器翻译教程,该教程从基本概念实现开始,首先搭建了一个简单的NMT模型...
    MiracleJQ阅读 6,353评论 1 11
  • 9. 循环神经网络 场景描述 循环神经网络(Recurrent Neural Network)是一种主流的深度学习...
    _龙雀阅读 2,902评论 0 3
  • 今天做完深度学习的论文分享,将这篇论文记录下来,以便日后回顾查看。PS:简书不支持 MathJax 编辑公式,简直...
    是neinei啊阅读 93,324评论 15 66
  • 보보경심 그 는 재미 있 는 재미 있 는 싱글 게임 을 주인공 의 너 의 발 디움 을 손 을 움켜쥔 칼...
    杰克老弟阅读 265评论 0 0
  • 二级office 按照新大纲,需要学习的内容有[6]:计算机的基础知识,Word的功能和使用 ,Excel的功能和...
    清醒不了的人阅读 678评论 0 1