登录注册写文章

attention

attention

普通attention

$c_t = \sum_{t=1}^Tsoftmax(sim(Q,K))V$

根据相似度的计算方法不同大致可以分为两种：

点积（大多数）
全连接网络

点积

首先根据torch的nn.LSTM(Bi_direction)可以==>

output, (h, c) = nn.Lstm()
# output的size为seq_len, batch_size, 2*hidden_size
# h的size为2, batch_size, hidden_size

首先定义一个函数进行相似度的计算

def sim(encode_state, decode_state):# encode_s指的是encode的output， decode_s指的是上一步的隐藏状态
    # encode_s: (seq_len, batch_size, 2*hidden_size)
    # decode_s "(2, batch_size, hidden_size)"
    # 这是个双向的lstm所以状态要拿两个
    decode_s = torch.cat((decode_s[0], decode_s[1]), 1) # batch_size, 2*hidden_size
    encode_s = encode_s.permute(0, 1) # batch_size, seq_len, 2*hidden_size
    decode_s = decode_s.unsqueeze(2) # batch_size, 2*hidden_size, 1
    sim = torch.bmm(encode_s, decode_s) # batch_size, seq_len, 1

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Pytorch_Seq2Seq与Attention
自然语言处理是典型的序列问题，其底层算法在最近几年迅速发展，比如去年年底发布的BERT在11项自然语言处理任务中表...
xieyan0811阅读 5,845评论 0赞 0
Attention注意力机制
网上的文章总把Attention注意力机制和Transformer模型结合来讲，看起来非常复杂。实际上Attent...
xieyan0811阅读 4,357评论 0赞 2

Transformer最全解析（attention is all you need）
Transformer出自google，被广泛应用于NLP的各项任务中，在transformer基础上改进优化的B...
不可能打工阅读 7,582评论 0赞 0
探索 Seq2Seq 模型及 Attention 机制
1 什么是 Seq2Seq ？ Seq2Seq 是一个 Encoder-Decoder 结构的神经网络，它的输入是...
DejavuMoments阅读 18,895评论 0赞 11
传统Seq2Seq+Attention实现机器翻译
实验软件和硬件环境： 1、硬件环境：个人PC华为云 modelArts 云计算资源 CPU：8核 64GiB+...
Mr_Relu阅读 4,916评论 0赞 1

赞1赞

赞赏

手机看全文