注意力

加性注意力:利用两个可学习的W

\mathbf{W}_{k} \in \mathbb{R}^{h \times k}, \mathbf{W}_{q} \in \mathbb{R}^{h \times q}, \mathbf{v} \in \mathbb{R}^{h}

a(\mathbf{k}, \mathbf{q})=\mathbf{v}^{T} \tanh \left(\mathbf{W}_{k} \mathbf{k}+\mathbf{W}_{q} \mathbf{q}\right)


点积注意力:

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容