Structured self-attention sentence embedding

这是一篇2017年的ICML 顶会


M 是一句话的embedding, 来自于LSTM 中的隐藏层,每个单词的注意力来自于傍边的(b)

从这个图中可以看到,旁边的注意力机制A = softmax(w_{s2}tanh(w_{s1 }H)),这里边的注意力机制相当于连续两个没有bias的全连接。

这个注意力机制,文章还写了一个A 的归一化,但是没什么用。最后的权重  计算r 个权重的和作为第n个数据的权重。

感觉这个方法没有太多的可解释性。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容