240 发简信
IP属地:黑龙江
  • 还有那个Masked Multi-Head Attention 中,这个Mask的作用能具体说一下么,是怎么消除右侧单词对当前单词的影响的么?谢谢

    论文笔记:Attention is all you need

    今天做完深度学习的论文分享,将这篇论文记录下来,以便日后回顾查看。PS:简书不支持 MathJax 编辑公式,简直悲伤的想哭泣,之后再上传到farbox上好啦😊论文原文:At...

  • 问一下,Multi-head Attention 中Linear的作用是什么呢?我看别的解释说Linear和split的作用是一样的,都是用来将Q,K,V来降维的,请问是这样的么

    论文笔记:Attention is all you need

    今天做完深度学习的论文分享,将这篇论文记录下来,以便日后回顾查看。PS:简书不支持 MathJax 编辑公式,简直悲伤的想哭泣,之后再上传到farbox上好啦😊论文原文:At...

  • 心酸

    文|燕公子 我叫方哲,一个普普通通的公司职员,长相普通,身材普通,家境普通,在人群里属于完全不起眼的那种人,关于自己实在泛善可陈。 我注意公司里有一个姑娘很久了。她叫林沫...