LSTM
图A是在走隐层的路上,第一道门忘记门x[0,1],决定保留多少信息过来;第二道门,+[-1,1],信息增益门,多的更多少的更少。
机器学习面试之Attention
https://www.jianshu.com/p/c94909b835d6
Attention注意力机制介绍
https://www.cnblogs.com/hiyoung/p/9860561.html
自然语言处理中的Attention Model:是什么及为什么
https://blog.csdn.net/malefactor/article/details/50550211