
reset gate 、update gate
、候选隐藏层
(与 LSTM 的
类似,可以看成是当前时刻的新信息,其中
用来控制需要保留多少之前的记忆)
为了克服RNN 无法很好处理远距离依赖而提出了 LSTM,而 GRU 是LSTM 的一个变体,GRU 保持了 LSTM 的效果同时又使结构更加简单。
GRU 只剩下两个门,即更新门和重置门。更新门用于控制前一时刻的状态信息被代入到当前状态的程,更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。
其中,都是拼接的,比如
,所以在学习时要分开来
第三式通过重置门重置后的与输入拼接,在通过 tanh激活函数得到 h'
最后一步记忆更新阶段,利用更新门来控制,更新门越接近1,代表记忆下来的数据越多。
GRU 相比LSTM,能够达到相当的效果,同时更加容易训练。GRU 使用了一个门控z 就可以进行遗忘和选择记忆,而 LSTM 要使用多个门控。