Structured self-attention sentence embedding

这是一篇2017年的ICML 顶会

M 是一句话的embedding, 来自于LSTM 中的隐藏层，每个单词的注意力来自于傍边的（b)

从这个图中可以看到，旁边的注意力机制 $A = softmax(w_{s2}tanh(w_{s1 }H))$ ，这里边的注意力机制相当于连续两个没有bias的全连接。

这个注意力机制，文章还写了一个A 的归一化，但是没什么用。最后的权重计算r 个权重的和作为第n个数据的权重。

感觉这个方法没有太多的可解释性。

最后编辑于：2021.01.13 16:51:13

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

【NLP论文笔记】A Structured Self-attentive Sentence E...
本文主要用于记录IBM发表于2017年的一篇论文（引用量超过300）。该论文主要是提出了一种句向量的自注意力模型（...
蘑菇轰炸机阅读 8,449评论 0赞 11
机器学习英语词汇--5
activation 激活值 activation function 激活函数 additive noise 加性...
630d0109dd74阅读 4,773评论 0赞 1

机器学习专业名词中英文对照
部分转自知乎部分转自 AI人工智能专业词汇集部分转自百度文库可参考链接：机器之心https://blog.cs...
iOSDevLog阅读 7,063评论 0赞 0
A Structured Self-attentive Sentence Embedding
论文原文：A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING 文章来源：...
xzhren阅读 8,366评论 0赞 1
机器学习专业术语翻译
Letter A Return Letter B Return Letter C Return Letter D ...
Oneshot_fea8阅读 13,741评论 1赞 5

赞1赞

赞赏

手机看全文