理解LSTM网络
此篇文章翻译自https://colah.github.io/posts/2015-08-Understanding-LSTMs/
摘重点翻译,略去了一些内容。
RNN循环神经网络
人的思考方式并不是从一片空白开始的。当你读一篇文章时,你理解每一个字的意思也借鉴了前面文字的意思,而不是把之前所看到的都忘掉,再从新的字开始理解。
传统的神经网络无法进行这种理解过程。比如在对一个电影的某个截图进行事件分类时,传统神经网络并不能根据这个截图前面的截图分类结果来影响后面的截图的分类结果。
循环神经网络恰恰针对了这个问题,在网络结构中有循环连接,帮助其记住之前的信息。
上图可见,循环网络有一个『结构块A』是结构上重用的,其吸收输入,输出。循环连接将块A的上一阶段的信息作为下一阶段的参考。
这个图看起来有些神奇。但实际上如果将这个图展开,其就是一个普通的神经网络。换言之,一个循环神经网络可以看做一个网络块的多次复制。排在前面的块将信息传递给排在后面的块。下面是一个展开的循环神经网络:
由图可知,循环神经网络与序列或列表息息相关。其天然为序列或列表类数据而设计。
事实上,其也没有令我们失望。近些年,RNN成功的解决了诸多问题:语音识别,语言建模,图像识别。
RNN的成功很大程度上是因为LSTM模型的提出。LSTM是一个RNN的特例,其性能远超标准版本的RNN。
长距离依赖问题
RNN的卖点就是其可以保留之前任务的信息并传递给后续的任务。比如使用视频之前帧内容有助于理解当前帧的内容。但标准的RNN在这方面只能算还凑合,时好时坏。
有时候,我们处理当前任务时只需要关注在其前面的邻居信息。比如在预测句子的下一个词时候,句子前面为『云飘在』,后面肯定是『天』字了。就不需要关心白云前面还有什么字了。这种情况,相关信息距离预测信息的距离比较近,标准RNN通常是可以处理的。
有时候,我们需要的信息可能距离当前的任务比较远。比如这段文本『我来自法国。(此处省略100字)。我说了一口流利的』,后面很有可能是『法语』。其中邻居上下文只能推断出下面出现的词应该是一种语言,至于是什么语言,还需要再往前找相关信息,直到找到『法国』。这个例子中,相关信息与预测信息之间的距离就比较长了。这种情况RNN就有些吃力了。随着相关信息与预测信息之间的距离不断拉长,RNN就越来越不给力。
理论上来说,RNN应该可以处理这种长距离依赖。但实际并非如此。值得庆幸的是,LSTM没这个问题。
LSTM网络
长短期记忆网络,也就是LSTM,是一类特殊的RNN,可以很好的学习长距离的依赖。不费吹灰之力。
众所周知,所有循环神经网络都是若干结构相同的块串联的形式。在标准的RNN中,这个块可能非常的简单,比如一个只有输入层,直接连接到tanh激活函数的情况。
LSTM同样有这种块串联的形式。但块中的结构不同。其有四个激活层,且四个层之间用特别的方式连接。
其中黄框代表神经网络层,粉色的圆圈代表按点进行操作,即两个向量之间相对应的分量所进行的操作。假设向量a为,向量b为。则a与b按点相乘的结果为。黑箭头代表向量的传递。尾部分叉的箭头代表两个向量的连接。开头分叉的箭头代表向量的复制。
LSTM中的核心思想
LSTM中最重要的就是块的状态,也就是图表最上面的那个从左向右的箭头。块的状态是一个信息传递的纽带。其贯穿所有块,每个块仅对其进行很少的线性操作。信息从头到尾贯穿始终非常容易。
LSTM中的每个块可以删除或修改块状态中的信息,这些对信息的操作是通过门结构来实现的。
所谓『门结构』,就是一个sigmoid激活值加上一个按点相乘操作。sigmod层输出激活值通常是一个向量,向量的每个分量在0-1之间。其可以看做是一种『通过率』的描述。即当某个分量大小为0时,则再进行按点相乘时,状态中对应的分量将变为0,也就是阻止了状态中的信息通过。若分量为1时,经过按点相乘后,对应的分量会完全通过。
LSTM有三个门来处理块状态
LSTM流程
第一步是决定块状态中什么信息将被遗忘。这是通过一个『遗忘门』来实现的。他通过观察和, 然后针对状态块中的每一个分量输出一个0-1之间的数。1代表完全保留信息,0代表彻底遗忘信息。
举例说明,在语言模型的例子中,我们的任务是根据句子之前的内容预测句子下一个词。在这个场景下,我们的块状态有可能包括主语的性别,主语的性别可能影响到代词的是她或是他。但当我们遇到一个新的主语时,我们希望忘掉之前那个主语的性别了。
下一步是决定我们在块状态中加入什么新信息。其包含两部分。第一部分是一个『输入门』,来对我们加入的信息进行过滤。第二部分是通过tanh层创建新的更新值。这两部分结合起来可以将最终的更新值加入到块状态中。
例如,在语言模型的例子中,如果我们希望将新的主语的性别加入到块状态中,就可以在这一步完成。
经过了如上两步,块状态就从旧状态转变为。
最后一步是决定输出什么。输出将参考块状态,块状态经过一个tanh激活层后,再经过一个『输出门』过滤来确定最终输出的内容。
LSTM的变体
上面讲到的是LSTM的标准版。其还有很多变体。
一种流行的变体是加入了为LSTM中的三个门增加了『窥视孔』,其除了可以看到h_{t-1}和x_t以外,还可以看到块状态。
另外一种变体是将遗忘门和输入门建立联系,而不是独立的两个门。遗忘和输入是同时进行的。
另外一个变动较大的变体是GRU。其合并了遗忘门和输入门,并且合并了隐藏状态和块状态。
总结
LSTM比起RNN前进了一大步。而Attention在此基础上又前进了一大步。Attention的思路是进一步扩充RNN每一步预测基于的信息量。比如你想对一幅图片产生说明文字,则在生成每一个词的时候,都是基于图像的特定区域。除Attention之外,Grid LSTM也很有前景。