LSTM基本原理
感觉RNN比CNN会难理解一点,刚开始对RNN并不是很理解,直到看了大神的这篇文章才感觉理解了一些,写个总结。
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
三个门
原始输入循环体的是当前输入和上前一步的输出,以及上一步的状态,
,先遇到遗忘门(forget gate):
经过遗忘门的函数之后产生一个0到1之间的输出,代表遗忘多少之前的状态,当为0时代表全部遗忘,1代表完全保持。
另外一条路线上,,又会遇见输入门(input gate),输入门会决定记忆哪些值:
另外同时经过函数会产生一个新的状态:
这个时候,由,,,就可以决定循环体的当前状态了:
有了当前的状态,自然就可以去输出门(output gate)了:
总结:从上面的公式,我们容易发现,每个门的形态是一样的,都是通过函数作用于当前的输入和前一时刻的输出产生一个0到1的数值,以此来决定通过多少信息。
循环体内部结构
先抛开这几个门,最简单的循环体内部就是一个全连接的神经网络,真实输出可能会再追加一个全连接的神经网络。
我们在用TensorFlow创建RNN模型的时候要设置hidden_size是真实输出的网络的输出神经元个数。
输入的数据是上一时刻的输出加上当前时刻的输入,如果是0时刻的话根据自己的设定填充。
比如当前输入神经元是x个上一状态的输入神经元是h个,那么合在一起的输入神经元就是(x+h)个,因为内部输出要作用于下一个循环体因此内部输出神经元也是h个,于是循环体内部就是(h+x)*h个权重和h个偏置,内部的输出再外接一个hidden_size个输出神经元的全连接层便产生了真实输出。