Transformer 名称的由来

翻译自原文:https://blogs.nvidia.com/blog/what-is-a-transformer-model/

注意力机制(Attention)是 Transformer 的核心,以至于谷歌研究人员几乎将这一术语用作他们 2017 年模型的名称——几乎敲定。

“'注意力网络'(Attention Net)听起来平淡无奇。” Ashish Vaswani 表示(他自 2011 年便开始研究神经网络)。

团队中的高级软件工程师 Jakob Uszkoreit 提出了 “Transformer” 这一名称。

Vaswani 对此调侃道:“我辩称我们是在转换表示(transforming representations),但这不过是玩了个文字游戏。”


额外说明:“transforming representations” 指模型通过 自注意力机制 重构数据表示(如文本向量),这是 Transformer 的核心创新

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容