Transformer论文精读1-《Attention Is All You Need》Abstract

主要作者是ChatGPT，有什么错误请提醒我T^T，我也不太会、、、

【原文+译文】

The dominant sequence transduction models are based on complex recurrent or
convolutional neural networks that include an encoder and a decoder.
主流的序列转换模型基于复杂的递归神经网络或卷积神经网络，包括编码器和解码器。

The best performing models also connect the encoder and decoder through an attention mechanism.
表现最佳的模型还通过注意力机制将编码器和解码器连接起来。

We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions
entirely.
我们提出了一种全新的简单网络架构——Transformer，完全基于注意力机制，完全舍弃了递归和卷积。

Experiments on two machine translation tasks show these models to
be superior in quality while being more parallelizable and requiring significantly
less time to train.
我们在两个机器翻译任务上的实验表明，这些模型在质量上优于现有模型，同时更具并行化能力，训练所需时间显著减少。

Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including
ensembles, by over 2 BLEU.
我们的模型在WMT 2014英语到德语翻译任务上达到了28.4的BLEU分数，比现有最佳结果（包括集成模型）提高了超过2 BLEU。

On the WMT 2014 English-to-French translation task,
our model establishes a new single-model state-of-the-art BLEU score of 41.8 after
training for 3.5 days on eight GPUs, a small fraction of the training costs of the
best models from the literature.
在WMT 2014英语到法语翻译任务中，我们的模型在经过8个GPU训练3.5天后，创下了单模型的最新BLEU分数41.8，这只是文献中最佳模型训练成本的一小部分。

We show that the Transformer generalizes well to
other tasks by applying it successfully to English constituency parsing both with
large and limited training data.
我们还通过将Transformer成功应用于英语成分解析（无论是大规模还是有限的训练数据），展示了其在其他任务上的良好泛化能力。

【专业词汇】

Sequence Transduction Model：序列转换模型
Convolutional Neural Networks：卷积神经网络
encoder：编码器
decoder：解码器
Attention Mechanism：注意力机制
recurrence：递归
parallelizable：可并行化的
Workshop on Machine Translation，WMT：机器翻译研讨会
Bilingual Evaluation Understudy，BLEU：双语评估替代方法
Graphics Processing Unit，GPU：图形处理单元。
generalize to：泛化

【扩展知识】

序列转换模型
序列转换模型（Sequence Transduction Model）是将一种序列转换为另一种序列的深度学习模型。这个概念通常应用于许多自然语言处理（NLP）和语音处理任务中，特别是在需要建模序列内部复杂依赖关系的场景中。需要处理和生成的序列长度可能不同，必须具备处理可变长度输入和输出的能力。

主要组成部分：

编码器（Encoder）：将输入序列转换为一个中间表示或上下文向量。提取输入序列中的重要特征，并将其压缩为一个固定长度的表示。
解码器（Decoder）：根据编码器生成的中间表示，生成输出序列，并可能根据先前生成的元素调整生成策略。
注意力机制（Attention Mechanism）（可选）：在解码过程中，允许模型在生成每个输出元素时动态地关注输入序列的不同部分，从而更好地捕捉输入中的关键信息。

卷积神经网络
卷积神经网络（Convolutional Neural Networks，简称CNNs）是深度学习模型，能够有效地识别图像中的模式和结构，捕捉空间关系，适用于图像处理和视觉任务。

主要组成部分：

卷积层（Convolutional Layer）：使用卷积操作，提取数据中的局部特征。通过卷积核（一个小的矩阵，其元素为权重）在数据上滑动（通常是通过一定的步长）并进行点乘运算，从而生成特征图（feature map）。
池化层（Pooling Layer）：对特征图进行下采样（减少特征图的空间维度，即降维），如最大池化（池化窗口在特征图上滑动，窗口中的最大值作为该窗口的输出，生成新的特征图）或平均池化（所有值的平均值作为该窗口的输出），减少的同时保留重要的特征（特征提取）。减少了输入数据的细微变化对特征提取的影响，提高了模型的鲁棒性。
全连接层（Fully Connected Layer）：将卷积和池化层提取的特征进行最终的分类或回归任务。

注意力机制
注意力机制（Attention Mechanism）旨在提高模型在处理序列数据时的表现，核心思想是允许模型在生成输出时“关注”输入序列的不同部分，从而能够捕捉和利用输入中的关键信息。

注意力机制的核心概念：

对齐：注意力机制为每个输出元素生成一个对齐分数，表示该输出元素应该关注输入序列中的哪些部分。这个对齐分数通常是通过计算输入和输出之间的相似度来确定的。
加权求和：注意力机制的基本操作是对输入的不同部分进行加权求和。每个输入部分的权重（即“注意力权重”）表示它在当前生成步骤中的重要性。这样，模型可以动态地决定哪些输入部分对当前输出最为重要。
加权和：基于对齐分数，计算输入的加权和，这样模型在生成每个输出元素时能够综合考虑输入序列的不同部分。

注意力机制的类型：

自注意力（Self-Attention）：序列的每个位置都与序列中的所有其他位置进行交互，从而捕捉序列内部的关系。这种机制广泛应用于Transformer模型中。
点积注意力（Dot-Product Attention）：通过计算查询向量（Query）和键向量（Key）之间的点积来获得注意力权重。这种方法在Transformer中被广泛使用。
多头注意力（Multi-Head Attention）：多头注意力机制是对多个不同的注意力机制（头）进行并行计算，然后将它们的结果进行拼接或平均。这种机制可以帮助模型捕捉不同的关系和特征。
位置编码（Positional Encoding）：由于注意力机制不具备处理序列顺序信息的能力，Transformer模型引入了位置编码来提供序列中单词的位置信息。

例子：假设在翻译一句话时，注意力机制会允许模型，在生成每个翻译单词时，关注源语言中的不同单词。例如，当模型生成目标语言中的一个单词时，它可以参考源语言句子中与该单词最相关的部分，而不是简单地处理整个输入句子。

图形处理单元 GPU
图形处理单元（Graphics Processing Unit，GPU）具有大量的计算核心（或称为流处理器），能够同时处理大量的任务。这使得GPU非常适合执行可以并行化的计算任务，比如图像处理、矩阵运算等。
开发者通常使用计算统一设备架构（Compute Unified Device Architecture，CUDA，由NVIDIA公司开发的一个并行计算平台和编程模型，开发者可以在不同类型的处理器上编写高效的并行计算代码）或开放计算语言（Open Computing Language，OpenCL）等编程模型来编写在GPU上运行的并行计算程序。这些编程模型允许开发者充分利用GPU的计算能力。

BLEU
Bilingual Evaluation Understudy 双语评估替代方法，评估机器翻译质量的常用自动化指标，通过n-gram匹配和惩罚机制来衡量翻译与参考翻译的相似度。

Transformer论文精读1-《Attention Is All You Need》Abstract