Transformer论文精读1-《Attention Is All You Need》Abstract

主要作者是ChatGPT,有什么错误请提醒我T^T,我也不太会、、、

【原文+译文】

The dominant sequence transduction models are based on complex recurrent or
convolutional neural networks that include an encoder and a decoder.
主流的序列转换模型基于复杂的递归神经网络或卷积神经网络,包括编码器和解码器。

The best performing models also connect the encoder and decoder through an attention mechanism.
表现最佳的模型还通过注意力机制将编码器和解码器连接起来。

We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions
entirely.
我们提出了一种全新的简单网络架构——Transformer,完全基于注意力机制,完全舍弃了递归和卷积。

Experiments on two machine translation tasks show these models to
be superior in quality while being more parallelizable and requiring significantly
less time to train.
我们在两个机器翻译任务上的实验表明,这些模型在质量上优于现有模型,同时更具并行化能力,训练所需时间显著减少。

Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including
ensembles, by over 2 BLEU.
我们的模型在WMT 2014英语到德语翻译任务上达到了28.4的BLEU分数,比现有最佳结果(包括集成模型)提高了超过2 BLEU。

On the WMT 2014 English-to-French translation task,
our model establishes a new single-model state-of-the-art BLEU score of 41.8 after
training for 3.5 days on eight GPUs, a small fraction of the training costs of the
best models from the literature.
在WMT 2014英语到法语翻译任务中,我们的模型在经过8个GPU训练3.5天后,创下了单模型的最新BLEU分数41.8,这只是文献中最佳模型训练成本的一小部分。

We show that the Transformer generalizes well to
other tasks by applying it successfully to English constituency parsing both with
large and limited training data.
我们还通过将Transformer成功应用于英语成分解析(无论是大规模还是有限的训练数据),展示了其在其他任务上的良好泛化能力。

【专业词汇】

  • Sequence Transduction Model:序列转换模型
  • Convolutional Neural Networks:卷积神经网络
  • encoder:编码器
  • decoder:解码器
  • Attention Mechanism:注意力机制
  • recurrence:递归
  • parallelizable:可并行化的
  • Workshop on Machine Translation,WMT:机器翻译研讨会
  • Bilingual Evaluation Understudy,BLEU:双语评估替代方法
  • Graphics Processing Unit,GPU:图形处理单元。
  • generalize to:泛化
【扩展知识】

序列转换模型
序列转换模型(Sequence Transduction Model)是将一种序列转换为另一种序列的深度学习模型。这个概念通常应用于许多自然语言处理(NLP)和语音处理任务中,特别是在需要建模序列内部复杂依赖关系的场景中。需要处理和生成的序列长度可能不同,必须具备处理可变长度输入和输出的能力。

主要组成部分:

  • 编码器(Encoder):将输入序列转换为一个中间表示或上下文向量。提取输入序列中的重要特征,并将其压缩为一个固定长度的表示。
  • 解码器(Decoder):根据编码器生成的中间表示,生成输出序列,并可能根据先前生成的元素调整生成策略。
  • 注意力机制(Attention Mechanism)(可选):在解码过程中,允许模型在生成每个输出元素时动态地关注输入序列的不同部分,从而更好地捕捉输入中的关键信息。

卷积神经网络
卷积神经网络(Convolutional Neural Networks,简称CNNs)是深度学习模型,能够有效地识别图像中的模式和结构,捕捉空间关系,适用于图像处理和视觉任务。

主要组成部分:

  • 卷积层(Convolutional Layer):使用卷积操作,提取数据中的局部特征。通过卷积核(一个小的矩阵,其元素为权重)在数据上滑动(通常是通过一定的步长)并进行点乘运算,从而生成特征图(feature map)。
  • 池化层(Pooling Layer):对特征图进行下采样(减少特征图的空间维度,即降维),如最大池化(池化窗口在特征图上滑动,窗口中的最大值作为该窗口的输出,生成新的特征图)或平均池化(所有值的平均值作为该窗口的输出),减少的同时保留重要的特征(特征提取)。减少了输入数据的细微变化对特征提取的影响,提高了模型的鲁棒性。
  • 全连接层(Fully Connected Layer):将卷积和池化层提取的特征进行最终的分类或回归任务。

注意力机制
注意力机制(Attention Mechanism)旨在提高模型在处理序列数据时的表现,核心思想是允许模型在生成输出时“关注”输入序列的不同部分,从而能够捕捉和利用输入中的关键信息。

注意力机制的核心概念:

  • 对齐:注意力机制为每个输出元素生成一个对齐分数,表示该输出元素应该关注输入序列中的哪些部分。这个对齐分数通常是通过计算输入和输出之间的相似度来确定的。
  • 加权求和:注意力机制的基本操作是对输入的不同部分进行加权求和。每个输入部分的权重(即“注意力权重”)表示它在当前生成步骤中的重要性。这样,模型可以动态地决定哪些输入部分对当前输出最为重要。
  • 加权和:基于对齐分数,计算输入的加权和,这样模型在生成每个输出元素时能够综合考虑输入序列的不同部分。

注意力机制的类型:

  • 自注意力(Self-Attention):序列的每个位置都与序列中的所有其他位置进行交互,从而捕捉序列内部的关系。这种机制广泛应用于Transformer模型中。

  • 点积注意力(Dot-Product Attention):通过计算查询向量(Query)和键向量(Key)之间的点积来获得注意力权重。这种方法在Transformer中被广泛使用。

  • 多头注意力(Multi-Head Attention):多头注意力机制是对多个不同的注意力机制(头)进行并行计算,然后将它们的结果进行拼接或平均。这种机制可以帮助模型捕捉不同的关系和特征。

  • 位置编码(Positional Encoding):由于注意力机制不具备处理序列顺序信息的能力,Transformer模型引入了位置编码来提供序列中单词的位置信息。

例子:假设在翻译一句话时,注意力机制会允许模型,在生成每个翻译单词时,关注源语言中的不同单词。例如,当模型生成目标语言中的一个单词时,它可以参考源语言句子中与该单词最相关的部分,而不是简单地处理整个输入句子。

图形处理单元 GPU
图形处理单元(Graphics Processing Unit,GPU)具有大量的计算核心(或称为流处理器),能够同时处理大量的任务。这使得GPU非常适合执行可以并行化的计算任务,比如图像处理、矩阵运算等。
开发者通常使用计算统一设备架构(Compute Unified Device Architecture,CUDA,由NVIDIA公司开发的一个并行计算平台和编程模型,开发者可以在不同类型的处理器上编写高效的并行计算代码)或开放计算语言(Open Computing Language,OpenCL)等编程模型来编写在GPU上运行的并行计算程序。这些编程模型允许开发者充分利用GPU的计算能力。

BLEU
Bilingual Evaluation Understudy 双语评估替代方法,评估机器翻译质量的常用自动化指标,通过n-gram匹配和惩罚机制来衡量翻译与参考翻译的相似度。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容