01-学习Qwen模型架构-2024-05-16

本文是《从零手搓大模型实战》学习的第一篇个人学习笔记，记录下学习内容以及相关心得。

注：相关学习内容来自datawhalechina/tiny-universe

本次的学习主要是通过深入剖析大模型本身原理，进一步了解大模型LLM底层的网络结构，通过学习Qwen2相关代码，了解了LLM模型结构内部。

1. Qwen模型与Transformer架构

Qwen是一个基于Transformer架构的预训练模型。

Transformer是2017年出现的一种革命性的神经网络架构，主要依赖于注意力机制来处理序列数据。
Transformer的主要特点：

自注意力机制（Self-Attention）：这是Transformer的核心部分，允许模型在处理序列数据时能够关注到输入中不同位置的信息。自注意力通过计算Query、Key和Value之间的点积，得到一个权重分布，这个分布表示序列中每个元素与其他元素的关系。
多头注意力（Multi-Head Attention）：为了捕捉序列中更复杂的关系，Transformer使用了多个注意力头。每个头关注不同的信息，然后将这些信息合并起来，形成一个更加丰富的表示。
编码器-解码器架构（Encoder-Decoder）：Transformer由编码器和解码器两部分组成。编码器将输入序列转换为一个连续的表示，而解码器则基于这个表示生成输出序列。
位置编码（Positional Encoding）：由于Transformer不使用循环或卷积结构，它需要一种方法来理解序列中的位置信息。位置编码通过为每个位置添加特定的向量来实现这一点，使得模型能够识别序列中的单词顺序。
并行化训练：Transformer的设计允许它在不同的序列位置上并行处理信息，这大大提高了训练和推理的效率。

2. Qwen模型基本架构

简化的Qwen模型基本架构

Qwen模型基本架构概述

文本输入（Text Input）
- Tokenizer层：将输入的文本序列转换为单词或子词标记的序列。
- Input_ids层：将Tokenizer生成的标记转换为唯一的ID序列。
Embedding层
- 将每个ID映射到一个固定维度的向量，生成一个向量序列作为模型的初始输入表示。
Decoder Layer
- 包含多个重复的堆叠层（Layers1, Layers..., Layersn），每层内部可能包含以下组件：
  - Self-Attention机制
    - Query, Key, Value（QKV）：计算输入序列内部的不同部分之间的相关性。
    - Dot_attn：计算Q和K的点积，然后应用Softmax函数得到Attention_weight。
    - Attention_weight：用于缩放Value的权重，生成加权和作为Attention的输出。
  - Feed-Forward Network (MLP)
    - 接收Attention的输出，并通过一到两个全连接层进行变换。
  - Residual Connection
    - 将输入（Hidden_states）与MLP的输出相加，以保持梯度在反向传播时的稳定性。
  - Normalization层（如RMSNorm）
    - 对Hidden_states进行归一化，以加速训练和提高模型的泛化能力。
  - Rotary Position Embedding
    - 为序列中的每个位置添加位置信息，以帮助模型理解序列中单词的顺序。
输出层（Output Layer）
- Linear层：将最后一层Decoder的输出转换为任务所需的维度。
- Softmax或Sigmoid等激活函数：根据任务的性质（如分类或回归），应用适当的激活函数。
损失函数（Loss Function）
- 根据任务的目标定义损失函数，如交叉熵损失（用于分类任务）或均方误差损失（用于回归任务）。
其他优化策略
- Dropout：在训练过程中随机丢弃部分神经元，以防止过拟合。
- 权重初始化：使用适当的权重初始化策略，如Xavier或He初始化，以加快训练速度。

注意，这里上图只是一个简化的概述，Qwen架构实际包含更多的细节。

3. Qwen2Model Qwen2Config

Qwen2Config中包含一些自定义的超参数，例如vocab_size,hidden_size,num_hidden_layers, num_attention_heads等。类似于dict可以调用里面的超参数:config.pad_token_id

vocab_size：词汇表大小，即模型能够理解的唯一词汇的数量。这个参数决定了模型能够处理的词汇范围，对于不同的语言或任务，可能需要调整词汇表的大小以适应特定的需求。
hidden_size：隐藏层的大小，即模型中隐藏层的神经元数量。这个参数影响模型的复杂度和表示能力。较大的隐藏层可以提供更丰富的表示，但也可能导致过拟合和计算成本的增加。
num_hidden_layers：隐藏层的数量。这个参数决定了模型的深度。更深的模型可能具有更强的表示能力，但也可能更难训练，并且需要更多的数据和计算资源。
num_attention_heads：注意力机制中“头”的数量。在Transformer架构中，多头注意力机制允许模型同时关注输入序列的不同部分。增加注意力头的数量可能有助于提高模型的表示能力，但也可能增加计算复杂度和训练时间。