常用的参数高效微调方法有Prompt Tuning、Adapter Tuning、Prefix Tuning、LoRA(Low-Rank Adaptation)和 QLoRA(Quantized LoRA)
1. Prompt Tuning
定义:Prompt Tuning 是通过添加可学习的提示(prompt)向量来引导预训练模型进行特定任务的方法。这些提示向量在输入嵌入中被拼接,以帮助模型生成任务相关的输出。
-
优点:
- 仅修改少量参数,训练效率高。
- 保留了原始模型的结构和参数。
-
缺点:
- 对提示的设计和选择敏感,可能需要经验和实验。
2. Adapter Tuning
定义:Adapter Tuning 通过在每个 Transformer 层之间插入小的适配器模块来进行微调。这些适配器通常包括少量的可训练参数,而不改变预训练模型的主干网络。
-
优点:
- 能够在特定任务上获得较好的性能。
- 模型主干保持不变,因此可以方便地进行多任务学习。
-
缺点:
- 增加模型的复杂性,尽管新增的参数量相对较小。
3. Prefix Tuning
定义:Prefix Tuning 是通过在输入序列前添加可学习的前缀(prefix)向量,影响模型的生成和推理过程。这些向量不直接参与输入的嵌入,但会影响整个计算过程。
-
优点:
- 只在预训练模型的输入层增加额外的参数,保持主干模型不变。
- 对于生成任务能显著改善结果。
-
缺点:
- 与 Prompt Tuning 类似,对前缀的选择敏感。
4. LoRA(Low-Rank Adaptation)
定义:LoRA 是通过将模型权重分解为两个低秩矩阵,引入少量可训练参数来进行微调。这允许在保持大部分模型不变的情况下,适应特定的任务。
-
优点:
- 显著减少了参数量和计算成本。
- 保留了预训练参数的性能,具有较好的泛化能力。
-
缺点:
- 低秩假设可能对某些任务不适用。
5. QLoRA(Quantized LoRA)
定义:QLoRA 是在 LoRA 的基础上进一步优化,通过量化技术降低模型的内存占用和计算需求,通常用于资源受限的设备上。
-
优点:
- 除了 LoRA 的优点外,还显著减小了模型的存储需求和推理时的计算成本。
- 适合在资源受限的环境中进行快速推理。
-
缺点:
- 量化可能导致模型性能下降,尤其在高精度场景下。
总结对比
方法 | 主要特点 | 可训练参数量 | 对任务的依赖 | 应用场景 |
---|---|---|---|---|
Prompt Tuning | 添加可学习的提示向量 | 较少 | 高 | NLP 分类任务 |
Adapter Tuning | 在 Transformer 层插入适配器模块 | 中 | 中 | 多任务学习 |
Prefix Tuning | 添加可学习的前缀向量影响输出 | 较少 | 中 | 生成任务 |
LoRA | 使用低秩矩阵进行微调 | 较少 | 中 | 各类推理任务 |
QLoRA | 在 LoRA 基础上量化参数 | 较少 | 中 | 资源受限设备 |
这些方法各有优缺点,选择合适的微调方式主要取决于具体任务要求、计算资源限制以及模型性能需求。
大模型 LoRA 微调详解
什么是 LoRA?
LoRA(Low-Rank Adaptation)是一种专门用于大模型微调的有效技术。它通过引入低秩矩阵的方式,使得模型在适应特定任务时,能够以较低的计算和内存成本进行微调。相较于传统的全参数微调,LoRA 提供了一种高效且灵活的解决方案。
LoRA 的原理
LoRA 的核心思想是将需要调整的模型权重分解为两个低秩矩阵,从而减少需要优化的参数数量。具体步骤如下:
-
模型权重分解:
假设一个预训练模型的某一层的权重为 ( W ),LoRA 将这个权重分解为:W' = W +△W = W + BA
其中 ( B ) 和 ( A ) 分别为低秩矩阵,且 △ W 为微调过程中引入的调整部分。
训练:
在微调过程中,通常只训练矩阵 ( A ) 和 ( B ),而保持 ( W ) 不变。这意味着在微调时,我们只需要更新相对较少的参数。推理:
在推理时,把原始权重 ( W ) 和通过低秩适应调整后的权重 ( W' ) 结合起来使用。
LoRA 微调的流程
以下是 LoRA 微调的具体流程:
模型选择: 选择合适的预训练语言模型,如 BERT、GPT 等。
插入 LoRA 层: 在特定的层(通常是 Transformer 的注意力层或前馈层)中插入 LoRA 层,即添加低秩矩阵 ( A ) 和 ( B )。
冻结原始参数: 冻结模型的原始权重参数,以避免在训练过程中其被改变。
准备数据集: 准备与目标任务相关的微调数据集。进行数据预处理,确保数据格式符合模型的输入要求。
训练 LoRA 层: 使用特定任务的数据集训练 LoRA 层。优化算法通常为 Adam 或者 AdamW。
评估模型: 在验证集或测试集上评估微调后的模型性能。
LoRA 微调的优势
参数量少: 由于只需微调低秩矩阵,模型需要训练的参数显著减少,降低了计算成本。
内存占用低: LoRA 使得微调可以在内存受限的环境中顺利进行。
训练速度快: 由于参数量大幅减少,训练速度相较于全参数微调快得多。
保留预训练能力: 通过冻结大部分的预训练参数,LoRA 能够更好地保留模型的预训练特性,提高泛化能力。
易于调节: 调整低秩矩阵的大小,可以在性能和资源消耗之间进行很好的平衡。
LoRA 微调的应用场景
- NLP 任务: 文本分类、情感分析、问答系统等。
- 推荐系统: 根据用户行为和特征进行个性化的推荐。
- 特定领域的微调: 如医学、金融、法律等领域的特定任务。
- 快速迭代: 当需要频繁微调模型以适应变化的需求时。
LoRA 微调的局限性
适应能力有限: 虽然 LoRA 可减少计算量,但在某些复杂任务下,可能无法像全参数微调那样达到最佳性能。
低秩限制: 低秩矩阵的选择对性能影响较大,选择不当可能导致模型性能下降。
总结
LoRA 是一种高效的微调技术,适用于大规模预训练语言模型的快速微调。通过引入低秩适应策略,LoRA 以较低的计算和内存成本调节模型参数,提高了大模型在特定任务上的表现。尽管存在一定的局限性,LoRA 在 NLP 和其他领域的应用前景广阔。
下面是使用 PyTorch 和 Hugging Face Transformers 库进行 LoRA 微调的简单示例。我们将演示如何在已有的预训练模型上添加 LoRA 层,并进行微调。
环境准备
首先,确保你安装了所需的库:
pip install torch transformers
LoRA 微调的基本代码实现
以下是一个简单的 LoRA 微调实现示例,该示例基于 BERT 模型:
import torch
import torch.nn as nn
from transformers import BertModel, BertTokenizer, AdamW
# 定义 LoRA 模块
class LoRA(nn.Module):
def __init__(self, model: nn.Module, r: int = 4):
super(LoRA, self).__init__()
self.model = model
self.r = r
# 获取 BERT 中的某一层
for param in self.model.parameters():
param.requires_grad = False # 冻结模型的原始参数
# 创建低秩适应矩阵
self.lora_A = nn.Parameter(torch.zeros((self.r, self.model.config.hidden_size)))
self.lora_B = nn.Parameter(torch.zeros((self.model.config.hidden_size, self.r)))
def forward(self, input_ids, attention_mask):
# 通过 BERT 模型获得输出
output = self.model(input_ids, attention_mask=attention_mask)[0]
# 加入 LoRA 调整
lora_output = output @ self.lora_B @ self.lora_A.transpose(0, 1) # 进行低秩适应
return output + lora_output # 返回调整后的输出
# 初始化模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
base_model = BertModel.from_pretrained('bert-base-uncased')
lora_model = LoRA(base_model) # 包装 BERT 模型
# 准备优化器
optimizer = AdamW(lora_model.parameters(), lr=5e-5)
# 准备示例输入数据
texts = ["Hello, how are you?", "I am fine, thank you!"]
inputs = tokenizer(texts, padding=True, return_tensors="pt")
# 开始训练
lora_model.train()
for epoch in range(3): # 设定训练周期
optimizer.zero_grad()
outputs = lora_model(inputs['input_ids'], inputs['attention_mask'])
loss = outputs.sum() # 这里的 loss 是示例,真实场景中需要根据任务计算损失
loss.backward() # 后向传播
optimizer.step() # 更新参数
print(f"Epoch {epoch + 1}: Loss {loss.item()}") # 打印损失
解释代码
LoRA 模块:
定义了LoRA
类,它接受一个预训练的模型(如 BERT),并添加了两个可训练的低秩矩阵 ( A ) 和 ( B )。在forward
方法中,通过模型和 LoRA 层计算输出。模型初始化:
使用BertTokenizer
和BertModel
初始化基础模型,并将其包装在LoRA
类中。优化器:
使用 AdamW 作为优化器,但仅优化 LoRA 的参数。训练过程:
在简单的循环中执行了模型的训练,打印了每个 epoch 的损失值。在实际应用中,损失的计算应依据具体的任务类型。
注意事项
数据集: 实际应用中,应使用适当的数据集进行训练,确保数据格式正确。
损失函数: 这里的损失计算为示例,您可能需要根据任务(如分类、生成等)使用适当的损失函数。
设备配置: 如果在 GPU 上训练,请确保将模型和数据移动到 CUDA 设备。
参数调试: LoRA 的低秩矩阵的大小(r)可以根据任务需求进行调整。
小结
这是一个基本的 LoRA 微调实现示例,您可以根据实际需求进行扩展和调整。通过引入 LoRA 层,您可以在不改变大部分预训练参数的情况下,快速适应特定任务。