循环神经网络|深度学习(李宏毅)(五)

一、RNN的引出(槽位填充问题)

  • 槽位填充问题
      槽位填充问题:如下图所示,在售票系统中需要将客户的一句话中的信息提取出来填充到对应的槽位下:
槽位填充
  • 词的表示方法
  1. 1-of-N Encoding(独热编码)
      在知道总共有几个词的情况下使用。
独热编码
  1. Beyond 1-of-N encoding

2.1 为独热编码增加“other”维度
为独热编码增加“other”维度

2.2 Word hashing
  词向量的每一个维度表示一个序列,如果词中出现该序列则标记为1。

Word hashing
  • 使用前馈神经网络解决槽位填充问题
      按照解决多分类问题的思路使用前馈神经网络来解决槽位填充问题,但是使用前馈神经网络有一定的局限性。
      输入:词向量
      输出:该词属于某一槽位的概率
使用前馈网络解决槽位填充问题
  • 使用前馈神经网络存在的问题
arrive
leave

  由上图可知,Taipei一词属于哪一个槽位还与其上下文有关,因此解决该问题的神经网络需要具有记忆,由此引入了具有记忆的神经网络——循环神经网络(RNN)。

二、循环神经网络(本小节指的是简单RNN)

  • RNN直观的架构
      循环神经网络相当于在全连接网络的隐藏层加入多个“memory”节点,隐藏层的输出值被保存在memory中,由此完成了“记忆”的过程,隐藏层的输入除了输入层的输入以外还包括memory中保存的数据,隐藏层的输出除了要传播到输出层以外还会用于更新memory中的值。其简单的架构图如下:
简单RNN
  • RNN详细的架构
循环神经网络使用单层的全连接结构图

  循环网络在每一时间t有相同的网络结构,假设输入xn维向量,隐含层的神经元个数为m,输出层的神经元个数为r,则U的大小为n×m维;W是上一次的a_{t-1}作为这一次输入的权重矩阵,大小为m×m维;V是连输出层的权重矩阵,大小为m×r维。而x_ta_to_t都是向量,它们各自表示的含义如下:

  1. x_t是时刻t的输入;
  2. a_t是时刻t的隐层状态。它是网络的记忆。a_t基于前一时刻的隐层状态和当前时刻的输入进行计算,即a_t=f(Ux_t+Wa_{t-1})。函数f通常是非线性的,如tanh或者ReLU。a_{t-1}为前一个时刻的隐层状态,其初始化通常为0
  3. o_t是时刻t的输出。例如,如果我们想预测句子的下一个词,它将会是一个词汇表中的概率向量,o_t=softmax(Va_t)a_t认为是网络的记忆状态,a_t可以捕获之前所有时刻发生的信息。输出o_t的计算仅仅依赖于时刻t的记忆。
  • 使用循环神经网络解决槽位填充问题
      将每个词向量输入到RNN中,得到的每一个输出向量表示对应的词属于某一个槽位的概率。
使用循环神经网络解决槽位填充问题

  回到上文中提到的“arrive”和“leave”问题,由于这两个词的词向量是不同的,因此在获得“Taipei”一词的输出时就不会像前馈神经网络一样得到相同的结果,说明网络的记忆为解决需要考虑上下文的槽位填充问题提供了可能。

使用循环神经网络解决槽位填充问题
  • 深层RNN
      RNN也可以“deep”,将RNN叠加到一起可以形成深层的RNN。
RNN can be deep
  • RNN变种
  1. Elman Network
      上述RNN为Elman Network架构,其主要特点是将隐藏层的输出保存在memory中传给下一个时间点。
Elman Network
  1. Jordan Network
      与Elman Network不同的是Jordan Network是将网络的输出层的输出保存在memory中传给下一个时间点。这样同Elman Network比起来我们更清楚memory中保存了什么。
Jordan Network
  1. Bidirectional RNN(RNN)
      在Elman Network和Jordan Network中网络的某一个输出值只取决于这个输出对应的输入以及这个输入之前的输入的影响,而双向RNN的每一个输出值都会受到所有的输入的影响,真正地考虑了“上下文”。
Bidirectional RNN

三、Long Short-term Memory (LSTM 长短期记忆网络)

  在简单RNN中某一个时间点的memory会直接全部清洗掉上一个时间点的memory,而在LSTM中由于加入了遗忘门使得网络的上一个时间点的memory有机会根据遗忘门的值来保留下一部分。

  • LSTM直观的架构
      LSTM的一个cell有4个输入和一个输出,输入包括3个门结构(输入门、输出门、遗忘门)以及cell的输入,其简单架构图如下:
LSTM的结构

  门结构的值通常使用sigmoid函数作为激活函数,因此其值均会在0-1之间。cell的输入会与输入门的值进行相乘来决定输入有多少可以进入cell,遗忘门的值决定原来的memory cell中的“记忆”有多少可以被保留,输入门的值决定cell中的值有多少可以输出。其具体的传播过程如下图,其中f(z_i)f(z_f)f(z_o)为门结构的输出值:

LSTM中的运算

  上图与常见的LSTM架构图的对应关系如下图所示,首先要将t时刻的输入向量x^t乘以四个不同的权重矩阵得到四个相同维度的向量z_fz_izz_o,这四个向量分别对应下图右半部分的较直观的架构图中cell的四个输入:

LSTM直观架构图与常见架构图的对应关系
  • LSTM详细的架构
      下图展示了一个LSTM cell的细节,在这个图中将上一个时间点的输出向量与当前时间点的输入向量拼接到一起作为当前时间点的输入:
LSTM单元细节图
  • LSTM cell不同时间点之间的关系
      LSTM会以下图的连接方式连接不同的时间点:
连接方式

  然而上图并非LSTM的最终状态,LSTM还会把上一个时间点的输出以及存在于memory cell中的值与当前时间点的输入拼接到一起,通过这种方式使得操控LSTM四个输入的时候同时考虑了当前时间点的输入、上一个时间点的输出以及保存在memory cell中的值:

LSTM最终形态
  • 深层LSTM
      LSTM也可以“deep”,将LSTM叠加到一起可以形成深层的LSTM。
深层LSTM

四、RNN的训练

  • 反向传播
      RNN的反向传播使用一种特殊的方式,叫做Backpropagation through time (BPTT 随时间反向传播)。
  • 梯度消失与梯度爆炸
RNN训练过程中loss变化

  在训练RNN时我们希望训练过程中的loss像蓝色的线那样变化,但是不幸的是有时候loss的变化会像绿色的线那样。
  RNN的loss在有些地方非常陡峭,有些地方又非常平坦,有时梯度更新到“悬崖”的地方再进行更新就会飞出很远,即梯度爆炸。使用clipping可以缓解这个问题,即设置一个梯度的极限值,当梯度大于这个值时就让梯度等于这个值。更新梯度的变化图如下所示:

RNN中的梯度下降

  举个例子来说,当RNN结构如下所示时,网络的最后一个输出y^{1000}w^{999}

例子

  此时当参数w轻微变化时就会对结果产生明显影响:

梯度爆炸与梯度消失

  使用LSTM可以解决梯度消失问题,这是因为与简单RNN不同的是LSTM更新memory的方式是将上一个时间点的memory保留一部分再与输入相加,因此前面时间点的memory会一直对输出结果有影响,这样就不会产生梯度消失问题,而简单RNN会在当前时间点更新memory时完全洗掉上一个时间点的memory。简单RNN和LSTM更新memory的方式如下:
  简单RNN:a_t=f(Ux_t+Wa_{t-1})
  LSTM:c_t=g(z)f(z_i)+c_{t-1}f(z_f)
  另外两种解决梯度消失问题的网络结构如下:

两种解决梯度消失问题的网络结构

  另外需要注意在简单RNN中随机初始化参数时使用sigmoid激活函数会比使用ReLU效果更好一些,但是使用单位矩阵初始化参数时ReLU激活函数会比sigmoid激活函数效果要好。

参考资料

ref:吴茂贵《Python深度学习:基于TensorFlow》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353