大模型微调

常用的参数高效微调方法有Prompt Tuning、Adapter Tuning、Prefix Tuning、LoRA(Low-Rank Adaptation)和 QLoRA(Quantized LoRA)

1. Prompt Tuning

  • 定义:Prompt Tuning 是通过添加可学习的提示(prompt)向量来引导预训练模型进行特定任务的方法。这些提示向量在输入嵌入中被拼接,以帮助模型生成任务相关的输出。

  • 优点

    • 仅修改少量参数,训练效率高。
    • 保留了原始模型的结构和参数。
  • 缺点

    • 对提示的设计和选择敏感,可能需要经验和实验。

2. Adapter Tuning

  • 定义:Adapter Tuning 通过在每个 Transformer 层之间插入小的适配器模块来进行微调。这些适配器通常包括少量的可训练参数,而不改变预训练模型的主干网络。

  • 优点

    • 能够在特定任务上获得较好的性能。
    • 模型主干保持不变,因此可以方便地进行多任务学习。
  • 缺点

    • 增加模型的复杂性,尽管新增的参数量相对较小。

3. Prefix Tuning

  • 定义:Prefix Tuning 是通过在输入序列前添加可学习的前缀(prefix)向量,影响模型的生成和推理过程。这些向量不直接参与输入的嵌入,但会影响整个计算过程。

  • 优点

    • 只在预训练模型的输入层增加额外的参数,保持主干模型不变。
    • 对于生成任务能显著改善结果。
  • 缺点

    • 与 Prompt Tuning 类似,对前缀的选择敏感。

4. LoRA(Low-Rank Adaptation)

  • 定义:LoRA 是通过将模型权重分解为两个低秩矩阵,引入少量可训练参数来进行微调。这允许在保持大部分模型不变的情况下,适应特定的任务。

  • 优点

    • 显著减少了参数量和计算成本。
    • 保留了预训练参数的性能,具有较好的泛化能力。
  • 缺点

    • 低秩假设可能对某些任务不适用。

5. QLoRA(Quantized LoRA)

  • 定义:QLoRA 是在 LoRA 的基础上进一步优化,通过量化技术降低模型的内存占用和计算需求,通常用于资源受限的设备上。

  • 优点

    • 除了 LoRA 的优点外,还显著减小了模型的存储需求和推理时的计算成本。
    • 适合在资源受限的环境中进行快速推理。
  • 缺点

    • 量化可能导致模型性能下降,尤其在高精度场景下。

总结对比

方法 主要特点 可训练参数量 对任务的依赖 应用场景
Prompt Tuning 添加可学习的提示向量 较少 NLP 分类任务
Adapter Tuning 在 Transformer 层插入适配器模块 多任务学习
Prefix Tuning 添加可学习的前缀向量影响输出 较少 生成任务
LoRA 使用低秩矩阵进行微调 较少 各类推理任务
QLoRA 在 LoRA 基础上量化参数 较少 资源受限设备

这些方法各有优缺点,选择合适的微调方式主要取决于具体任务要求、计算资源限制以及模型性能需求。

大模型 LoRA 微调详解

什么是 LoRA?

LoRA(Low-Rank Adaptation)是一种专门用于大模型微调的有效技术。它通过引入低秩矩阵的方式,使得模型在适应特定任务时,能够以较低的计算和内存成本进行微调。相较于传统的全参数微调,LoRA 提供了一种高效且灵活的解决方案。

LoRA 的原理

LoRA 的核心思想是将需要调整的模型权重分解为两个低秩矩阵,从而减少需要优化的参数数量。具体步骤如下:

  1. 模型权重分解:
    假设一个预训练模型的某一层的权重为 ( W ),LoRA 将这个权重分解为:

    W' = W +△W = W + BA

    其中 ( B ) 和 ( A ) 分别为低秩矩阵,且 △ W 为微调过程中引入的调整部分。

  2. 训练:
    在微调过程中,通常只训练矩阵 ( A ) 和 ( B ),而保持 ( W ) 不变。这意味着在微调时,我们只需要更新相对较少的参数。

  3. 推理:
    在推理时,把原始权重 ( W ) 和通过低秩适应调整后的权重 ( W' ) 结合起来使用。

LoRA 微调的流程

以下是 LoRA 微调的具体流程:

  1. 模型选择: 选择合适的预训练语言模型,如 BERT、GPT 等。

  2. 插入 LoRA 层: 在特定的层(通常是 Transformer 的注意力层或前馈层)中插入 LoRA 层,即添加低秩矩阵 ( A ) 和 ( B )。

  3. 冻结原始参数: 冻结模型的原始权重参数,以避免在训练过程中其被改变。

  4. 准备数据集: 准备与目标任务相关的微调数据集。进行数据预处理,确保数据格式符合模型的输入要求。

  5. 训练 LoRA 层: 使用特定任务的数据集训练 LoRA 层。优化算法通常为 Adam 或者 AdamW。

  6. 评估模型: 在验证集或测试集上评估微调后的模型性能。

LoRA 微调的优势

  1. 参数量少: 由于只需微调低秩矩阵,模型需要训练的参数显著减少,降低了计算成本。

  2. 内存占用低: LoRA 使得微调可以在内存受限的环境中顺利进行。

  3. 训练速度快: 由于参数量大幅减少,训练速度相较于全参数微调快得多。

  4. 保留预训练能力: 通过冻结大部分的预训练参数,LoRA 能够更好地保留模型的预训练特性,提高泛化能力。

  5. 易于调节: 调整低秩矩阵的大小,可以在性能和资源消耗之间进行很好的平衡。

LoRA 微调的应用场景

  • NLP 任务: 文本分类、情感分析、问答系统等。
  • 推荐系统: 根据用户行为和特征进行个性化的推荐。
  • 特定领域的微调: 如医学、金融、法律等领域的特定任务。
  • 快速迭代: 当需要频繁微调模型以适应变化的需求时。

LoRA 微调的局限性

  • 适应能力有限: 虽然 LoRA 可减少计算量,但在某些复杂任务下,可能无法像全参数微调那样达到最佳性能。

  • 低秩限制: 低秩矩阵的选择对性能影响较大,选择不当可能导致模型性能下降。

总结

LoRA 是一种高效的微调技术,适用于大规模预训练语言模型的快速微调。通过引入低秩适应策略,LoRA 以较低的计算和内存成本调节模型参数,提高了大模型在特定任务上的表现。尽管存在一定的局限性,LoRA 在 NLP 和其他领域的应用前景广阔。

下面是使用 PyTorch 和 Hugging Face Transformers 库进行 LoRA 微调的简单示例。我们将演示如何在已有的预训练模型上添加 LoRA 层,并进行微调。

环境准备

首先,确保你安装了所需的库:

pip install torch transformers

LoRA 微调的基本代码实现

以下是一个简单的 LoRA 微调实现示例,该示例基于 BERT 模型:

import torch
import torch.nn as nn
from transformers import BertModel, BertTokenizer, AdamW

# 定义 LoRA 模块
class LoRA(nn.Module):
    def __init__(self, model: nn.Module, r: int = 4):
        super(LoRA, self).__init__()
        self.model = model
        self.r = r

        # 获取 BERT 中的某一层
        for param in self.model.parameters():
            param.requires_grad = False  # 冻结模型的原始参数

        # 创建低秩适应矩阵
        self.lora_A = nn.Parameter(torch.zeros((self.r, self.model.config.hidden_size)))
        self.lora_B = nn.Parameter(torch.zeros((self.model.config.hidden_size, self.r)))

    def forward(self, input_ids, attention_mask):
        # 通过 BERT 模型获得输出
        output = self.model(input_ids, attention_mask=attention_mask)[0]
        # 加入 LoRA 调整
        lora_output = output @ self.lora_B @ self.lora_A.transpose(0, 1)  # 进行低秩适应
        return output + lora_output  # 返回调整后的输出

# 初始化模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
base_model = BertModel.from_pretrained('bert-base-uncased')
lora_model = LoRA(base_model)  # 包装 BERT 模型

# 准备优化器
optimizer = AdamW(lora_model.parameters(), lr=5e-5)

# 准备示例输入数据
texts = ["Hello, how are you?", "I am fine, thank you!"]
inputs = tokenizer(texts, padding=True, return_tensors="pt")

# 开始训练
lora_model.train()
for epoch in range(3):  # 设定训练周期
    optimizer.zero_grad()
    outputs = lora_model(inputs['input_ids'], inputs['attention_mask'])
    loss = outputs.sum()  # 这里的 loss 是示例,真实场景中需要根据任务计算损失

    loss.backward()  # 后向传播
    optimizer.step()  # 更新参数

    print(f"Epoch {epoch + 1}: Loss {loss.item()}")  # 打印损失

解释代码

  1. LoRA 模块:
    定义了 LoRA 类,它接受一个预训练的模型(如 BERT),并添加了两个可训练的低秩矩阵 ( A ) 和 ( B )。在 forward 方法中,通过模型和 LoRA 层计算输出。

  2. 模型初始化:
    使用 BertTokenizerBertModel 初始化基础模型,并将其包装在 LoRA 类中。

  3. 优化器:
    使用 AdamW 作为优化器,但仅优化 LoRA 的参数。

  4. 训练过程:
    在简单的循环中执行了模型的训练,打印了每个 epoch 的损失值。在实际应用中,损失的计算应依据具体的任务类型。

注意事项

  1. 数据集: 实际应用中,应使用适当的数据集进行训练,确保数据格式正确。

  2. 损失函数: 这里的损失计算为示例,您可能需要根据任务(如分类、生成等)使用适当的损失函数。

  3. 设备配置: 如果在 GPU 上训练,请确保将模型和数据移动到 CUDA 设备。

  4. 参数调试: LoRA 的低秩矩阵的大小(r)可以根据任务需求进行调整。

小结

这是一个基本的 LoRA 微调实现示例,您可以根据实际需求进行扩展和调整。通过引入 LoRA 层,您可以在不改变大部分预训练参数的情况下,快速适应特定任务。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容