一句话,有时候单独拎出来难以理解,而放在整篇文章中,我们则容易通过联系上下文理解。
什么叫联系上下文理解,就是把前文信息联系结合到当前语句上,这也是RNN的关键。
RNN(Recurrent Neural Networks),即包含循环的神经网络。
左边是一个循环神经网络结构,将其展开,会得到一个序列结构,上一次的输出会作为下一次的输入(即前面的输入将会对后面的输入产生影响)。
这种链式的特征揭示了 RNN 本质上和序列相关,因而很适合处理语音,文本,这种序列数据。
长期依赖(Long-Term Dependencies)问题
RNN关键点是能够连接先前的信息到当前任务上,如通过前文推断当前语句含义。但是,当相关信息和当前语句间隔过大时候,RNN将难以学习到远距离信息。
LSTM 网络 (Long Short Term)
LSTM 是一种特殊的RNN。通过精巧的设计(CNN中的深度残差网络也是类似)解决长序列训练过程中的梯度消失和梯度爆炸问题(即远距离传递导致的信息丢失问题)。
标准RNN由简单的神经网络模块按时序展开成链式。这个重复模块往往结构简单且单一,如一个tanh层。这种记忆叠加方式显得简单粗暴。
LSTM内部有较为复杂的结构。能通过门控状态来选择调整传输的信息,记住需要长时记忆的信息,忘记不重要的信息。
LSTM核心思想
LSTM关键在于增加一条贯穿与链上的信息传送带,称为细胞状态(cell state)。
LSTM通过精心设计门结构来对cell state上的信息进行增添和移除。
门是使得信息选择式通过的方法。包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。
Sigmoid 层输出0到1之间的数值,描述每个部分有多少量可以通过。
0 代表“不许任何量通过”,1 代表“允许任意量通过”。
LSTM通过三个门结构来维护cell state上的信息。