1、Simple RNN和Standard RNN

RNN的实现方式是将前一状态的期望输出通过加权求和的方式加入到当前时刻的期望输出中。

y(t)=f(X(t)⋅W+y(t−1)⋅V+b)
它就是无隐藏层的循环神经网络，起名叫“simple RNN”，因为只记住前一时刻的状态，当然这在处理长序列时，效果较差。

Standard RNN增加隐藏层用于记忆之前所有时刻的输出，从而使神经元有了记忆。

2、RNN的局限

它内部的操作很少，但在适当的情形下（如短序列）运作的很好。 RNN 使用的计算资源比它的演化变体 LSTM 和 GRU 要少得多。

但是在反向传播期间，RNN 会面临梯度消失的问题，因此具有短时记忆。原因是，离当前时间越久的状态，在经过不断的tanh连乘之后，其所携带的信息会越来越少。

LSTM 或 GRU 可以学习只保留相关信息来进行预测，并忘记不相关的数据。

3、LSTM

对于普通RNN：

$c(t) = g_{forget}\otimes c(t-1)+ g_{in} \otimes \hat {c} (t)$ (1)

$\hat{c} (t) = f(W\cdot x(t) + V\cdot y(t-1))$ (2)

$y(t) = g_{out}\otimes f(c(t))$ (3)

$g_{in} (t) = sigmoid(W\cdot x(t) + V\cdot y(t-1) + U\cdot c(t-1))$ (4)

$g_{forget} (t) = sigmoid(W\cdot x(t) + V\cdot y(t-1) + U\cdot c(t-1))$ (5)

$g_{out} (t) = sigmoid(W\cdot x(t) + V\cdot y(t-1) + U\cdot c(t))$ (6)

引入短时记忆/隐藏层

直接用隐藏层单元h代替最终输出y，可得：

$c(t) = g_{forget}\otimes c(t-1)+ g_{in} \otimes \hat {c} (t)$

$\hat{c} (t) = f(W\cdot x(t) + V\cdot h(t-1))$

$h(t) = g_{out}\otimes f(c(t))$

$y(t) = h(t)$

$g_{in} (t) = sigmoid(W\cdot x(t) + V\cdot h(t-1) + U\cdot c(t-1))$

$g_{forget} (t) = sigmoid(W\cdot x(t) + V\cdot h(t-1) + U\cdot c(t-1))$

$g_{out} (t) = sigmoid(W\cdot x(t) + V\cdot h(t-1) + U\cdot c(t))$

LSTM 有三种类型的门结构：遗忘门、输入门和输出门。

遗忘门：

随着输入值不断叠加到隐藏函数中，c值很快会变得非常大，这时输出结果经过sigmoid或tanh激活函数之后，输出就会完全饱和，造成梯度为0。遗忘门的功能是决定应丢弃或保留哪些信息。

来自前一个隐藏状态的信息和当前输入的信息同时传递到 sigmoid 函数中去，输出值介于 0 和 1 之间，越接近 0 意味着越应该丢弃，越接近 1 意味着越应该保留。

输入门：

输入门用于更新细胞状态。首先将前一层隐藏状态的信息和当前输入的信息传递到 sigmoid 函数中去。将值调整到 0~1 之间来决定要更新哪些信息。0 表示不重要，1 表示重要。

其次还要将前一层隐藏状态的信息和当前输入的信息传递到 tanh 函数中去，创造一个新的侯选值向量。最后将 sigmoid 的输出值与 tanh 的输出值相乘，sigmoid 的输出值将决定 tanh 的输出值中哪些信息是重要且需要保留下来的。

由于输入门只会在必要的时候开启，因此大部分情况下公式【1】可以看成C(t)=C(t-1)，也就是我们最理想的状态。由此加性操作带来的梯度爆炸也大大减轻啦，梯度消失更更更轻了。

细胞状态：

下一步，就是计算细胞状态。首先前一层的细胞状态与遗忘向量逐点相乘。如果它乘以接近 0 的值，意味着在新的细胞状态中，这些信息是需要丢弃掉的。然后再将该值与输入门的输出值逐点相加，将神经网络发现的新信息更新到细胞状态中去。至此，就得到了更新后的细胞状态。

输出门：

输出门用来确定下一个隐藏状态的值，隐藏状态包含了先前输入的信息。首先，我们将前一个隐藏状态和当前输入传递到 sigmoid 函数中，然后将新得到的细胞状态传递给 tanh 函数。

最后将 tanh 的输出与 sigmoid 的输出相乘，以确定隐藏状态应携带的信息。再将隐藏状态作为当前细胞的输出，把新的细胞状态和新的隐藏状态传递到下一个时间步长中去。

归纳来说：遗忘门确定前一个步长中哪些相关的信息需要被保留；输入门确定当前输入中哪些信息是重要的，需要被添加的；输出门确定下一个隐藏状态应该是什么。

显然，由于h随时都可以被输出门截断，所以我们可以很感性的把h理解为短时记忆单元。

而从数学上看的话，更是短时记忆了，因为梯度流经h的时候，经历的是h(t)->c(t)->h(t-1)的连环相乘的路径（在输入输出门关闭前），显然如前边的数学证明中所述，这样会发生梯度爆炸和消失，而梯度消失的时候就意味着记忆消失了，即h为短时记忆单元。

同样的思路可以再证明一下，由于梯度只从c走的时候，存在一条无连环相乘的路径，可以避免梯度消失。又有遗忘门避免激活函数和梯度饱和，因此c为长时记忆单元。

网络前馈的过程：

新时刻t刚刚到来的时候，

1、首先长时记忆单元c(t-1)通过遗忘门g_forget去遗忘一些信息。

2、其中g_forget受当前时刻的外部输入x(t)、上一时刻的输出(短时记忆)h(t-1)、上一时刻的长时记忆c(t-1)的控制。

3、然后由当前时刻外部输入x(t)和上一时刻的短时记忆h(t-1)计算出当前时刻的新信息 $\hat{c} (t)$ 。

4、然后由输入门g_in控制，将当前时刻的部分新信息 $\hat{c} (t)$ 写入长时记忆单元，产生新的长时记忆c(t)。

5、其中g_in受x(t)、h(t-1)、c(t-1)的控制。

6、激活长时记忆单元c(t)，准备上天（输出）。

7、然后由输出门g_out把控，将至目前积累下来的记忆c(t)选出部分相关的记忆生成这一时刻我们关注的记忆h(t)，再把这部分记忆进行输出y(t)。

8、其中输出门g_out受x(t)、h(t-1)和当前时刻的长时记忆c(t)的控制。

4、GRU

知道了 LSTM 的工作原理之后，来了解一下 GRU。GRU 是新一代的循环神经网络，与 LSTM 非常相似。与 LSTM 相比，GRU 去除掉了细胞状态，使用隐藏状态来进行信息的传递。它只包含两个门：更新门和重置门。

更新门

更新门的作用类似于 LSTM 中的遗忘门和输入门。它决定了要忘记哪些信息以及哪些新信息需要被添加。

重置门

重置门用于决定遗忘先前信息的程度。

这就是 GRU。GRU 的张量运算较少，因此它比 LSTM 的训练更快一下。很难去判定这两者到底谁更好，研究人员通常会两者都试一下，然后选择最合适的。

原文链接：

https://mp.weixin.qq.com/s/aV9Rj-CnJZRXRm0rDOK6gg

https://zhuanlan.zhihu.com/p/30465140

LSTM和GRU

LSTM和GRU

1、Simple RNN和Standard RNN

2、RNN的局限

3、LSTM

4、GRU