20180426 qzd
一、深度学习中的Attention模型介绍及其进展
哈哈 在这里推荐一非常好的博文!!
https://blog.csdn.net/jteng/article/details/52864401
《Attention is All You Need》浅读(简介+代码)https://kexue.fm/archives/4765
Q、 K、 V的理解:
到目前为止,对Attention层的描述都是一般化的,我们可以落实一些应用。比如,如果做阅读理解的话,QQ可以是篇章的词向量序列,取K=VK=V为问题的词向量序列,那么输出就是所谓的Aligned Question Embedding。
疑惑?
然而,只要稍微思考一下就会发现,这样的模型并不能捕捉序列的顺序!换句话说,如果将K,VK,V按行打乱顺序(相当于句子中的词序打乱),那么Attention的结果还是一样的。这就表明了,到目前为止,Attention模型顶多是一个非常精妙的“词袋模型”而已。
20180428
更新中……