01-学习Qwen模型架构-2024-05-16

本文是《从零手搓大模型实战》学习的第一篇个人学习笔记,记录下学习内容以及相关心得。

注:相关学习内容来自datawhalechina/tiny-universe

本次的学习主要是通过深入剖析大模型本身原理,进一步了解大模型LLM底层的网络结构,通过学习Qwen2相关代码,了解了LLM模型结构内部。

1. Qwen模型与Transformer架构

Qwen是一个基于Transformer架构的预训练模型。

Transformer是2017年出现的一种革命性的神经网络架构,主要依赖于注意力机制来处理序列数据
Transformer的主要特点:

  • 自注意力机制(Self-Attention):这是Transformer的核心部分,允许模型在处理序列数据时能够关注到输入中不同位置的信息。自注意力通过计算Query、Key和Value之间的点积,得到一个权重分布,这个分布表示序列中每个元素与其他元素的关系。
  • 多头注意力(Multi-Head Attention):为了捕捉序列中更复杂的关系,Transformer使用了多个注意力头。每个头关注不同的信息,然后将这些信息合并起来,形成一个更加丰富的表示。
  • 编码器-解码器架构(Encoder-Decoder):Transformer由编码器和解码器两部分组成。编码器将输入序列转换为一个连续的表示,而解码器则基于这个表示生成输出序列。
  • 位置编码(Positional Encoding):由于Transformer不使用循环或卷积结构,它需要一种方法来理解序列中的位置信息。位置编码通过为每个位置添加特定的向量来实现这一点,使得模型能够识别序列中的单词顺序。
  • 并行化训练:Transformer的设计允许它在不同的序列位置上并行处理信息,这大大提高了训练和推理的效率。

2. Qwen模型基本架构

简化的Qwen模型基本架构

Qwen模型基本架构概述

  1. 文本输入(Text Input)

    • Tokenizer层:将输入的文本序列转换为单词或子词标记的序列。
    • Input_ids层:将Tokenizer生成的标记转换为唯一的ID序列。
  2. Embedding层

    • 将每个ID映射到一个固定维度的向量,生成一个向量序列作为模型的初始输入表示。
  3. Decoder Layer

    • 包含多个重复的堆叠层(Layers1, Layers..., Layersn),每层内部可能包含以下组件:
      • Self-Attention机制
        • Query, Key, Value(QKV):计算输入序列内部的不同部分之间的相关性。
        • Dot_attn:计算Q和K的点积,然后应用Softmax函数得到Attention_weight。
        • Attention_weight:用于缩放Value的权重,生成加权和作为Attention的输出。
      • Feed-Forward Network (MLP)
        • 接收Attention的输出,并通过一到两个全连接层进行变换。
      • Residual Connection
        • 将输入(Hidden_states)与MLP的输出相加,以保持梯度在反向传播时的稳定性。
      • Normalization层(如RMSNorm)
        • 对Hidden_states进行归一化,以加速训练和提高模型的泛化能力。
      • Rotary Position Embedding
        • 为序列中的每个位置添加位置信息,以帮助模型理解序列中单词的顺序。
  4. 输出层(Output Layer)

    • Linear层:将最后一层Decoder的输出转换为任务所需的维度。
    • Softmax或Sigmoid等激活函数:根据任务的性质(如分类或回归),应用适当的激活函数。
  5. 损失函数(Loss Function)

    • 根据任务的目标定义损失函数,如交叉熵损失(用于分类任务)或均方误差损失(用于回归任务)。
  6. 其他优化策略

    • Dropout:在训练过程中随机丢弃部分神经元,以防止过拟合。
    • 权重初始化:使用适当的权重初始化策略,如Xavier或He初始化,以加快训练速度。

注意,这里上图只是一个简化的概述,Qwen架构实际包含更多的细节。

3. Qwen2Model Qwen2Config

Qwen2Config中包含一些自定义的超参数,例如vocab_size,hidden_size,num_hidden_layers, num_attention_heads等。类似于dict可以调用里面的超参数:config.pad_token_id

  • vocab_size:词汇表大小,即模型能够理解的唯一词汇的数量。这个参数决定了模型能够处理的词汇范围,对于不同的语言或任务,可能需要调整词汇表的大小以适应特定的需求。
  • hidden_size:隐藏层的大小,即模型中隐藏层的神经元数量。这个参数影响模型的复杂度和表示能力。较大的隐藏层可以提供更丰富的表示,但也可能导致过拟合和计算成本的增加。
  • num_hidden_layers:隐藏层的数量。这个参数决定了模型的深度。更深的模型可能具有更强的表示能力,但也可能更难训练,并且需要更多的数据和计算资源。
  • num_attention_heads:注意力机制中“头”的数量。在Transformer架构中,多头注意力机制允许模型同时关注输入序列的不同部分。增加注意力头的数量可能有助于提高模型的表示能力,但也可能增加计算复杂度和训练时间。
模型初始化

该方法设置了模型的两个属性:padding_idx(用于指定填充标记的索引),vocab_size(词汇表的大小)并初始化模型的嵌入层、解码器层、归一化层

4. Qwen2DecoderLayer

Qwen2DecoderLayer是模型的核心结构

decoder layer
image.png

5. Qwen2Attention

image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容