大模型微调实战：LoRA与QLoRA技术指南

先甩个结论：如果你要在资源有限的情况下微调大模型，QLoRA 是目前最务实的选择——它能在普通消费级 GPU（比如 40GB A100）上实现接近完整微调的精度，同时显存占用砍掉 70%。但别急着高兴，这背后藏着不少门道，今天我们就掰扯清楚。

LoRA 的本质是“外挂参数”

传统微调要全量更新模型参数，显存爆炸是常态。LoRA（Low-Rank Adaptation）的聪明之处在于只注入低秩矩阵到注意力层的 Query/Key 和 Value 投影层。假设原始权重是 W，微调时用 W + ΔW，而 ΔW 被分解成两个小矩阵 A（m×k）和 B（k×n），其中 k << min(m,n)。实验证明，当 k=8~32 时，效果几乎和直接更新 ΔW 一样好，显存占用却从 O(n²) 降到 O(k²)。

举个具体例子：对 7B 参数的 llama2 做 LoRA 微调，如果 rank=16，新增参数只有 (7B × 16 × 3)/1e9 ≈ 3.5MB（仅注意力层）。更骚的是，这些参数可以完全放在 GPU 显存外计算，通过梯度检查点进一步省显存。不过要注意：LoRA 对任务类型敏感，分类任务可能比生成任务更需要调整 rank 值。

QLoRA 的骚操作：4bit 量化+双路优化

QLoRA 在 LoRA 基础上做了两件事：

4bit 量化：将主模型权重（非 LoRA 部分）用 Q4_0 格式存储，相比 FP16 省 4 倍显存。这里有个坑：4bit 会导致数值范围压缩，必须配合动态缩放（Dynamic Scale）避免下溢，否则训练会崩。PyTorch 的 bitsandbytes 库实现了这个 trick。
双精度优化器状态：虽然权重是 4bit，但 AdamW 的状态变量（如 m/v）仍用 FP32，防止梯度消失。实测发现，这种“半吊子”方案反而比纯 4bit 优化器效果好，因为某些层需要更精细的更新。

实测数据：在 RTX 4090（24GB）上用 QLoRA 微调 7B 模型，batch_size=4 就能跑起来，而完整微调至少需要 24GB 显存。精度损失方面，在 GLUE 基准上，QLoRA 和 FP16 LoRA 差距小于 1%，但比完整微调慢 2~3 倍——这是量化带来的必然代价。

踩坑实录与调参建议

梯度爆炸：QLoRA 初期常出现 NaN，解决方案是降低学习率（推荐 1e-5~2e-5）或梯度裁剪。
rank 选择：LoRA 的 rank 不是越大越好。对于指令微调（instruction tuning），rank=8 通常够用；但若领域跨度大（比如医学→法律），可能需要 rank=32 以上。
量化误差累积：4bit 量化会让某些层（如 MLP 的前馈网络）出现梯度异常，建议监控各层梯度方差，必要时手动冻结某些层。

最后说一句：QLoRA 不是银弹。如果你的任务极度依赖模型底层特征（比如视觉-语言多模态对齐），还是得乖乖用完整微调。但对于垂直领域的垂直任务（如客服对话、代码补全），QLoRA 已经足够香。