LSTM RNN










Gate 也是Vector控制的  

主分线剧情  















Batch  。。。。。。。。。tensor flow

当把几个RNN堆起来时,得到的这个新的网络就可以输出比单独一个RNN更为复杂的结果。


训练 Recurrent Neural Networks 的问题?

RNN 是很难被训练的,训练的时候也使用 Back Propagation,所以这也存在着梯度消失的问题,而且这个梯度消失的问题会是指数级别的。

原因就是,RNN的每个时间点,就相当于一个前馈神经网络的整个层,

所以训练100步的模型就相当于训练一个100层的前馈网络。

这就造成了随着时间的推移,梯度会以指数级的速度减小,进而造成信息的衰变。


如何解决?

有很多方式可以解决这个问题,其中之一就是 Gating。

这个技术的好处就是它可以决定,什么时候需要忘记当前的输入,什么时候需要记住它,以便将来的步骤里会用到它。

今天最流行的 Gating 就是 LSTM 和 GRU。

当然也有一些其他的方法 Gradient clipping, Better optimizer, Steeper Gates。

其他参考文章

LSTM


人工智能技术文章list

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容