循环神经网络

RNN

1. 基本结构

NLP 问题中,通常句子都是由 n 个词组成,可看做一串序列,RNN 正是可以处理序列类型数据的深度学习模型。如下图所示,RNN 由多个相同的神经网络单元,即图中的方块,连接而成,输入可看做一句话的每个单词,上一个单元的计算结果传递给下一个单元。经过串行计算后,每一个单元总是包含有之前所有单元的一些信息。

nvsn.png

t 时刻网络单元的计算包括两个元素,t-1 时刻的输出 h_{t-1}t 时刻的输入 x_{t} 。计算后的结果 h_{t} 则传递给下一个单元,作为 t+1 时刻的一个输入。假设输入序列为 x_{1},x_{2},x_{3},...,x_{n} ,对应的中间状态为 h_{1},h_{2},h_{3},...,h_{n} ,输出为 y_{1},y_{2},y_{3},...,y_{n}

计算过程为:

\begin{aligned} h_{t} = f(Ux_{t} + Wh_{t-1} + b) \\ y_{t} = Softmax(Vh_{t} + c) \end{aligned}

其中,U,W,V,b,c 为需要更新的参数,激活函数 f 一般为 tanh 函数。

2. 其他结构

Many to One

当处理文本分类时,输入是一个文本序列,而输出可能只是一个类别,那么只需要对最后一个中间状态做计算并输出结果就可以了。如下图所示:

nvs1.png

计算过程:

\begin{aligned} h_{t} = f(Ux_{t} + Wh_{t-1} + b) \\ y = Softmax(Vh_{4} + c) \end{aligned}

One to Many

当处理 Image Caption 任务时,输入可能是一个向量,输出则是一个文本序列,如下图所示:

1vsn.png
1vsn2.png

计算过程:
\begin{aligned} h_{t} = f(Ux + Wh_{t-1} + b) \\ y_{t} = Softmax(Vh_{t} + c) \end{aligned}

Many to Many

当处理机器翻译时,输入一串文本序列,输出一串文本序列。如下图所示:

nvsn.png

该模型称为 Sequence to Sequence 模型,又称为 Encoder-Decoder 模型。

3. 梯度消失(爆炸)

假设有三个时间段的 RNN 模型,如下图所示:

3time.png

前向传播:

\begin{array}{ll} {h_{1}=f\left(W h_{0}+U x_{1}\right)} & {y_{1}=g\left(V h_{1}\right)} \\ {h_{2}=f\left(W h_{1}+U x_{2}\right)} & {y_{2}=g\left(V h_{2}\right)} \\ {h_{3}=f\left(W h_{2}+U x_{3}\right)} & {y_{3}=g\left(V h_{3}\right)} \end{array}

t_3 时刻的损失函数为 L_3,对共享参数 W、U、V 求导:

\begin{array}{c} {\frac{\partial L_{3}}{\partial V}=\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial V}} \\ {\frac{\partial L_{3}}{\partial U}=\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{3}}{\partial U}+\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{2}}{\partial U}+\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{3}}{\partial h_{1}} \frac{\partial h_{1}}{\partial U}=\sum_{i=1}^{t} \frac{\partial L_{t}}{\partial y_{t}} \frac{\partial L_{t}}{\partial h_{t}}\left(\prod_{j=i+1}^{t} \frac{\partial h_{j}}{\partial h_{j-1}}\right) \frac{\partial h_{j}}{\partial U}} \\ {\frac{\partial L_{3}}{\partial W}=\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{3}}{\partial W}+\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{3}}{\partial h_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{3}}{\partial h_{1}} \frac{\partial h_{1}}{\partial W}=\sum_{i=1}^{t} \frac{\partial L_{t}}{\partial y_{t}} \frac{\partial L_{t}}{\partial h_{t}}\left(\prod_{j=i+1}^{t} \frac{\partial h_{j}}{\partial h_{j-1}}\right) \frac{\partial h_{j}}{\partial W}} \end{array}

可见,共享参数 W、U 的每次求导计算会涉及到整个序列。而 RNN 的神经单元只有一个 tanh 激活函数,如下图所示:

LSTM3-SimpleRNN.png

即:
\begin{aligned}& h_{j}=\tanh \left(W h_{j-1}+U x_{x}\right)\\ &\sum_{j=i+1}^{t} \frac{\partial h_{j}}{\partial h_{j-1}}=\sum_{j=i+1}^{t} W \tanh ^{\prime} \end{aligned}

反向传播求导过程会包含每一步求导的连乘,假如参数 W 也是一个比较小的数 0.02 ,当 t 很大时,上式就会趋于零,RNN 的梯度就会消失。反之,会梯度爆炸。

LSTM

1. 长期依赖问题

若梯度消失,那么最前面的输入所蕴含的信息就无法传达到后面。比如要推测 I grew up in France… I speak fluent French. 的最后一个词 French 。那么肯定就要知道很靠前的 France 这个词的信息,但是它们相互相隔非常远,有可能获取不到,如下图所示:

RNN-longtermdependencies.png

2. 基本结构

和 RNN 的神经网络单元不同的是,LSTM 每个单元输的出包括两部分:C_th_t ,同时引入了遗忘门、输入门和输出门。

LSTM3-chain.png

单元状态 C_{t−1} 通过累加的方式记录了 t 时刻需要保存的信息,作用在整个神经单元,因此可以长距离传输信息,如下图所示:

LSTM3-C-line.png

遗忘门

遗忘门用来丢弃上一时刻 C_{t−1} 的部分信息,上一时刻的隐状态 h_{t−1} 和当前时刻的输入 x_t 通过一个 sigmoid 层,输出 f_t 介于 0 到 1 之间,1 代表信息全部保留,0 代表全部丢弃。

LSTM3-focus-f.png

输入门

  • 为了更新单元状态 C_t ,将 h_{t−1}x_t 传递给 sigmoid 函数,输出 i_t 同样介于 01 之间,决定将更新临时单元状态中的哪些值。
  • 为了协调神经单元,将 h_{t−1}x_t 传递给 tanh 函数,输出的临时单元状态 C_t 介于 -11 之间。
  • i_tC_t 逐点相乘。
    LSTM3-focus-i.png

单元状态

  • C_{t−1}f_t 逐点相乘,和接近 0 的值相乘,表示该词的作用不太大,会逐渐被遗忘;反之,该词的权重会变大,表示比较重要。
  • 将结果和输入门的输出逐点相加,将单词的向量加加减减,更新为新的值,构成当前时刻神经单元的所有信息 C_t
LSTM3-focus-C.png

输出门

  • h_{t−1}x_t 传递给 sigmoid 函数,输出 o_t 同样介于 01 之间,决定 C_t 的哪些部分需要输出。
  • C_t 传递给 tanh 函数,与 o_t 逐点相乘得到输出,该输出作为当前隐状态 h_t 参与下一个神经单元进行计算。
LSTM3-focus-o.png

References

Understanding LSTM Networks

The Unreasonable Effectiveness of Recurrent Neural Networks

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,525评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,203评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,862评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,728评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,743评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,590评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,330评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,244评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,693评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,885评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,001评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,723评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,343评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,919评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,042评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,191评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,955评论 2 355

推荐阅读更多精彩内容