循环神经网络

RNN

1. 基本结构

NLP 问题中，通常句子都是由 n 个词组成，可看做一串序列，RNN 正是可以处理序列类型数据的深度学习模型。如下图所示，RNN 由多个相同的神经网络单元，即图中的方块，连接而成，输入可看做一句话的每个单词，上一个单元的计算结果传递给下一个单元。经过串行计算后，每一个单元总是包含有之前所有单元的一些信息。

nvsn.png

$t$ 时刻网络单元的计算包括两个元素， $t-1$ 时刻的输出 $h_{t-1}$ 和 $t$ 时刻的输入 $x_{t}$ 。计算后的结果 $h_{t}$ 则传递给下一个单元，作为 $t+1$ 时刻的一个输入。假设输入序列为 $x_{1}，x_{2}，x_{3}，...，x_{n}$ ，对应的中间状态为 $h_{1}，h_{2}，h_{3}，...，h_{n}$ ，输出为 $y_{1}，y_{2}，y_{3}，...，y_{n}$ 。

计算过程为：

$\begin{aligned} h_{t} = f(Ux_{t} + Wh_{t-1} + b) \\ y_{t} = Softmax(Vh_{t} + c) \end{aligned}$

其中， $Ｕ，Ｗ，Ｖ，ｂ，ｃ$ 为需要更新的参数，激活函数 $f$ 一般为 $tanh$ 函数。

2. 其他结构

Many to One

当处理文本分类时，输入是一个文本序列，而输出可能只是一个类别，那么只需要对最后一个中间状态做计算并输出结果就可以了。如下图所示：

nvs1.png

计算过程：

$\begin{aligned} h_{t} = f(Ux_{t} + Wh_{t-1} + b) \\ y = Softmax(Vh_{4} + c) \end{aligned}$

One to Many

当处理 Image Caption 任务时，输入可能是一个向量，输出则是一个文本序列，如下图所示：

1vsn.png

1vsn2.png

计算过程：
$\begin{aligned} h_{t} = f(Ux + Wh_{t-1} + b) \\ y_{t} = Softmax(Vh_{t} + c) \end{aligned}$

Many to Many

当处理机器翻译时，输入一串文本序列，输出一串文本序列。如下图所示：

nvsn.png

该模型称为 Sequence to Sequence 模型，又称为 Encoder-Decoder 模型。

3. 梯度消失（爆炸）

假设有三个时间段的 RNN 模型，如下图所示：

3time.png

前向传播：

$\begin{array}{ll} {h_{1}=f\left(W h_{0}+U x_{1}\right)} & {y_{1}=g\left(V h_{1}\right)} \\ {h_{2}=f\left(W h_{1}+U x_{2}\right)} & {y_{2}=g\left(V h_{2}\right)} \\ {h_{3}=f\left(W h_{2}+U x_{3}\right)} & {y_{3}=g\left(V h_{3}\right)} \end{array}$

$t_3$ 时刻的损失函数为 $L_3$ ，对共享参数 $W、U、V$ 求导：

$\begin{array}{c} {\frac{\partial L_{3}}{\partial V}=\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial V}} \\ {\frac{\partial L_{3}}{\partial U}=\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{3}}{\partial U}+\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{2}}{\partial U}+\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{3}}{\partial h_{1}} \frac{\partial h_{1}}{\partial U}=\sum_{i=1}^{t} \frac{\partial L_{t}}{\partial y_{t}} \frac{\partial L_{t}}{\partial h_{t}}\left(\prod_{j=i+1}^{t} \frac{\partial h_{j}}{\partial h_{j-1}}\right) \frac{\partial h_{j}}{\partial U}} \\ {\frac{\partial L_{3}}{\partial W}=\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{3}}{\partial W}+\frac{\partial L_{3}}{\partial y_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{3}}{\partial h_{3}} \frac{\partial L_{3}}{\partial h_{3}} \frac{\partial h_{3}}{\partial h_{1}} \frac{\partial h_{1}}{\partial W}=\sum_{i=1}^{t} \frac{\partial L_{t}}{\partial y_{t}} \frac{\partial L_{t}}{\partial h_{t}}\left(\prod_{j=i+1}^{t} \frac{\partial h_{j}}{\partial h_{j-1}}\right) \frac{\partial h_{j}}{\partial W}} \end{array}$

可见，共享参数 $W、U$ 的每次求导计算会涉及到整个序列。而 $RNN$ 的神经单元只有一个 $tanh$ 激活函数，如下图所示：

LSTM3-SimpleRNN.png

即：
$\begin{aligned}& h_{j}=\tanh \left(W h_{j-1}+U x_{x}\right)\\ &\sum_{j=i+1}^{t} \frac{\partial h_{j}}{\partial h_{j-1}}=\sum_{j=i+1}^{t} W \tanh ^{\prime} \end{aligned}$

反向传播求导过程会包含每一步求导的连乘，假如参数 $W$ 也是一个比较小的数 0.02 ，当 $t$ 很大时，上式就会趋于零，RNN 的梯度就会消失。反之，会梯度爆炸。

LSTM

1. 长期依赖问题

若梯度消失，那么最前面的输入所蕴含的信息就无法传达到后面。比如要推测 I grew up in France… I speak fluent French. 的最后一个词 French 。那么肯定就要知道很靠前的 France 这个词的信息，但是它们相互相隔非常远，有可能获取不到，如下图所示：

RNN-longtermdependencies.png

2. 基本结构

和 RNN 的神经网络单元不同的是，LSTM 每个单元输的出包括两部分： $C_t$ 和 $h_t$ ，同时引入了遗忘门、输入门和输出门。

LSTM3-chain.png

单元状态 $C_{t−1}$ 通过累加的方式记录了 $t$ 时刻需要保存的信息，作用在整个神经单元，因此可以长距离传输信息，如下图所示：

LSTM3-C-line.png

遗忘门

遗忘门用来丢弃上一时刻 $C_{t−1}$ 的部分信息，上一时刻的隐状态 $h_{t−1}$ 和当前时刻的输入 $x_t$ 通过一个 $sigmoid$ 层，输出 $f_t$ 介于 0 到 1 之间，1 代表信息全部保留，0 代表全部丢弃。

LSTM3-focus-f.png

输入门

为了更新单元状态 $C_t$ ，将 $h_{t−1}$ 和 $x_t$ 传递给 $sigmoid$ 函数，输出 $i_t$ 同样介于 $0$ 到 $1$ 之间，决定将更新临时单元状态中的哪些值。
为了协调神经单元，将 $h_{t−1}$ 和 $x_t$ 传递给 $tanh$ 函数，输出的临时单元状态 $C_t$ 介于 $-1$ 到 $1$ 之间。
将 $i_t$ 和 $C_t$ 逐点相乘。

LSTM3-focus-i.png

单元状态

将 $C_{t−1}$ 与 $f_t$ 逐点相乘，和接近 $0$ 的值相乘，表示该词的作用不太大，会逐渐被遗忘；反之，该词的权重会变大，表示比较重要。
将结果和输入门的输出逐点相加，将单词的向量加加减减，更新为新的值，构成当前时刻神经单元的所有信息 $C_t$ 。

LSTM3-focus-C.png

输出门

将 $h_{t−1}$ 和 $x_t$ 传递给 $sigmoid$ 函数，输出 $o_t$ 同样介于 $0$ 到 $1$ 之间，决定 $C_t$ 的哪些部分需要输出。
将 $C_t$ 传递给 $tanh$ 函数，与 $o_t$ 逐点相乘得到输出，该输出作为当前隐状态 $h_t$ 参与下一个神经单元进行计算。

LSTM3-focus-o.png

References

Understanding LSTM Networks

The Unreasonable Effectiveness of Recurrent Neural Networks

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,525评论 6赞 507
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,203评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,862评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,728评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,743评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,590评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,330评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,244评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,693评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,885评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,001评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,723评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,343评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,919评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,042评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,191评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,955评论 2赞 355