翻译自原文:https://blogs.nvidia.com/blog/what-is-a-transformer-model/
注意力机制(Attention)是 Transformer 的核心,以至于谷歌研究人员几乎将这一术语用作他们 2017 年模型的名称——几乎敲定。
“'注意力网络'(Attention Net)听起来平淡无奇。” Ashish Vaswani 表示(他自 2011 年便开始研究神经网络)。
团队中的高级软件工程师 Jakob Uszkoreit 提出了 “Transformer” 这一名称。
Vaswani 对此调侃道:“我辩称我们是在转换表示(transforming representations),但这不过是玩了个文字游戏。”
额外说明:“transforming representations” 指模型通过 自注意力机制 重构数据表示(如文本向量),这是 Transformer 的核心创新