-
两者的输出:
在LSTM中,单元状态[图片上传失败...(image-abcde8-1597551183213)]
经非线性变换tanh作用后,再经过输出门作用后得到整个单元的输出[图片上传失败...(image-3b5e41-1597551183213)]
;而在GRU中,融入新信息后的单元状态就直接作为了 整个单元的输出[图片上传失败...(image-cbf58f-1597551183213)]
。因此在LSTM中,单元输出[图片上传失败...(image-4ff10e-1597551183213)]
可以看成是对单元状态[图片上传失败...(image-1f8f39-1597551183213)]
的再次筛选,而在GRU中去掉了这一步。
-
两者的遗忘门与输入门:
在LSTM中,遗忘门是通过单元输出[图片上传失败...(image-7c4832-1597551183213)]
,与新输入[图片上传失败...(image-c2a79c-1597551183213)]
训练得到的;而在GRU中,遗忘门也是通过单元输出[图片上传失败...(image-de0a22-1597551183213)]
与新输入[图片上传失败...(image-5837b9-1597551183213)]
训练得到的。不同点在于,LSTM通过[图片上传失败...(image-c53dba-1597551183213)]
和 [图片上传失败...(image-45b4ab-1597551183213)]
分别训练了一个遗忘门和输入门;而在GRU中这两者是互补的,也就是遗忘门和输入门在对信息进行筛选时有一种互补的效果。脑子想象出一个位置矩阵,在GRU中如果历史信息中某些位置的信息应该被减弱,那么在历史信息结合新输入的信息时,这些位置的信息就应该得到加强(并且从动机上来说也很有道理,同时还简化了模型)。
-
两者对新输入的处理:
在LSTM中,新的输入由当前时刻的输入[图片上传失败...(image-ad554b-1597551183213)]
和历史单元输出[图片上传失败...(image-790538-1597551183213)]
组成;而在GRU中,新的输入由当前时刻的输入[图片上传失败...(image-5ff5fc-1597551183213)]
和经筛选后的历史单元输出[图片上传失败...(image-7347ba-1597551183213)]
组成。在GRU中,[图片上传失败...(image-1e36c9-1597551183213)]
经过再次筛选后才同[图片上传失败...(image-6209ae-1597551183213)]
结合,而在LSTM中没有(但可以看成是LSTM在输出的时候就已经进行筛选了,即LSTM中的输出门可以等价的看成是GRU中的重置门)。两者在这方面差别不算太大。
总结就是,LSTM中的[图片上传失败...(image-8049ab-1597551183213)]
和GRU中的[图片上传失败...(image-a2268b-1597551183213)]
在整体形式上没有区别,都是先对历史信息就行筛选,然后再融入新的信息。但是,在细节GRU通过同一个共用的门,以互补的形式来减弱和加强信息,这应该算得上是GRU中最核心的部分。至于最后在对新输入的处理,基本没有太大的差别。