1
0
Attention Is All You Need(2017.6)本文从微观角度(张量角度)讨论transformer的前向传播 自注意力层 一、计算自注意力的第一步就是用每...
写了 33113 字,被 98 人关注,获得了 147 个喜欢