常识
关键字
原始精度:
fp32: Float32, 全精度, 每个参数4字节, 只在训练初期使用
bf16: Bfloat16, 主流格式, GoogleBrain开发, 专门为深度学习优化, 不容易出现数值溢出
fp16: Flat16, 传统半精度, 比BF16更精准但数值范围窄, 容易NaN
量化精度:
- 8bit/Int8/q8_0: 几乎无损
- 6bit(q6_k): 在统计学上, 它的PPL(困惑度)已经无限接近原版bf16
- 5bit(q5_0/q5_k_m): 如果你发现4-bit模型在写代码时有小Bug, 切到5-bit通常就能解决
- 4bit(q4_0/q4_k_m)
- q4_k_m: 智力损失约1-3%,但体积只有原版的1/4
- M: 中等压缩, 权重和激活值平衡得最好, 是最推荐的下载版本
- S: 极致压缩, 体积更小但智力受损稍明显
- L: 压缩较少, 智力最高, 但体积直逼8bit
- nvfp4: 精度最高速度最快, 仅限Blackwell
- mxfp4: 4位压缩, 引入微缩放机制让4bit模型拥有接近8bit的精度, 精度略逊于nvfp4
- q4_k_m: 智力损失约1-3%,但体积只有原版的1/4
- 3bit(q3_k_l/iq3_m): 对于70B以上的大模型勉强可用,对于7B/8B模型逻辑会大幅缩水
- 2bit(q2_k,iq2_xxs/iq2_m): 智力损耗极高, 模型可能会变得"前言不搭后语"或者出现明显的逻辑断层
- iq4_xs/iq4_nl: 重要性量化, 比传统的q4更聪明, "最重要的参数"不被压坏
- fp6: 介于fp和int4
- mxfp8: 8位压缩, 引入微缩放机制让8bit模型拥有接近16bit的精度
- nf4: 显存有限的情况下微调模型的工业界的标准, 比q4_0效果好得多
- jang: 针对AppleSilicon深度优化的量化格式
架构与结构:
- MoE: 专家混合结构, 模型虽然很大但每次处理问题只激活小部分参数, 用更快的推理速度实现更强的智力
- GQA: 分组查询注意力, 大幅减少推理时的KVCache显存占用, 在同样的显存下跑更长的对话
- Dense: 稠密模型, 相对于MoE而言, 推理时所有参数都会参与计算
训练与对齐算法:
- SFT: 有监督微调, 模型学习了大量"问-答"对
- RLHF: 人类反馈强化学习, 这是模型拥有"价值观"和"逻辑条理"的关键
- DPO/ORPO: 直接偏好优化, 目前替代RLHF的主流技术, 能让模型在更小的算力下变得更聪明
- GRPO: DeepSeekR1带火的算法, 不需要昂贵的判分模型, 通过组内对比让模型实现"自我反思"和"长考"
- Dynamic: Dynamic Activation Scaling, 动态激活值缩放, 推理时实时计算缩放比例, 无需校准数据集, 对Int8/FP8等精度有极强的保护作用, 能有效压制异常值导致的逻辑崩坏
模型版本及功能:
- IT(Instruct): 指令微调版, 即对话版, 能听懂人类要求, 适合聊天&写代码
- Base(Foundation): 基座版, 超级续写机, 不会回答问题
- Chat: 等同于IT, 适合聊天
- VLM/MLLM/VL(Vision): 多模态版, 支持图片
- Coder: 适合写代码
- Abliterated/Uncensored: 去限制版
- RP: 角色扮演版, 针对小说创作/角色模仿优化过的版本
容器格式:
- GGUF: 单文件, 自带元数据, 跨平台兼容性最强, 对Apple Silicon优化
- Safetensors: HuggingFace标准格式, 安全且加载快
- EXL2: 极致压缩, 专为 NVIDIA 显卡深度优化
- AWQ/GPTQ: 通常以特定的量化方式存在, 依赖专用的加速内核
- MLX: 对Apple Silicon优化
- ONNX/OpenVINO: 跨平台与Intel优化
开源模型
通用全能:
- Llama: 开源界的工业标准, 生态系统极其完善. 无论你想做量化/微调/部署, Llama永远是适配最快Bug最少的选择
- Qwen: 国产模型甚至全球开源界的顶尖水平, 数学、编程和中文能力极强
- GLM: 中英翻译质量极佳, 在学术理解/复杂指令遵循上非常硬核
- Grok: 参数量巨大
- Hermes: 极致的指令遵循与逻辑灵活性, 回答更具拟人感, 且在处理复杂长指令时现极其惊艳
- Dolphin: 去限制化的全能助手
逻辑/编程/长思考模型:
- DeepSeek: 极致的代码与逻辑, 开启了开源模型的"长思考"时代, 非常适合解决那种需要"想很久"的难题
- Codestral: 代码补全
- Mistral/Mixtral: MoE架构的先驱, 推理速度极快, 显存占用低
- InternLM: 工具调用与逻辑链路极稳, 适合写自动化脚本
- StarCoder/CodeLlama: 早期的代码专家, 目前多作为特定领域的微调基座
多模态与多媒体:
- 视觉理解
- InternVL/Qwen-VL: 视觉问答, 分析复杂的图表/识别路牌
- CLIP/ViT: 图像识别与理解, 图像搜索+以图搜图
- 内容生成
- StableDiffusion/Flux: 画师级产出
- CogVideoX: 对"复杂动作"描述支持最好
- HuanYuan: 生成逻辑最缜密尤其是人物的动作一致性非常强
- 语音处理
- Whisper: 语音转文字(STT): 目前世界上最准确支持语种最多的语音识别模型
- FishSpeech/GPT-SoVITS: 语音克隆(TTS), 只需要几秒钟的素材就能模仿一个人的声音
端侧,轻量与调度:
- Phi: 以小博大, 高质量数据胜过模型参数, 非常适合本地个人助手
- Gemma: 学术与研究背景深厚
- MiniCPM: 手机端也能跑的最强大脑
- Smollm: 用于推测解码加速大模型输出
专业功能与架构创新:
- CommandR: RAG与搜索专家, 自带引文功能, 处理海量搜索结果时幻觉最少
- Mamba/Jamba: 无限长度的上下文+极速推理, 传统的Transformer随着对话变长速度会越来越慢, 而Mamba架构的推理速度是恒定的且内存占用极低
- Granite: 企业级合规与安全性, 用完全透明/经过法律审计的数据训练的
技术
2025之前:
- LoRA: Low-Rank Adaptation, 参数高效微调的开端. 通过冻结原模型参数/仅训练低秩分解矩阵将微调显存需求降低了数倍, 开启了私有化定制时代
- S-LoRA: Scalable LoRA, 大规模适配器服务化. 通过统一管理成千上万个LoRA算子并利用高效的内存调度, 使得一台服务器能同时支持数千个不同任务的推理, 奠定了Model-as-a-Service的基础
- QLoRA: 将微调显存从多卡降到单卡可训70B
- Grouped-Query Attention (GQA) / Multi-Query Attention (MQA): KVcache共享, 推理显存下降2-8x, 是后面MLA/长上下文的前置条件
- FlashAttention-3: FP8训练的算力解放. 利用Hopper架构的TensorCore特性实现了异步数据处理, 将内存带宽利用率推向极致, 是后来2025年能进行百万量级Token原生训练的工程基石
- Native Multimodality: 原生多模态, 告别了外挂视觉编码器的模式. 模型在第一天训练时就将音频/视频和文本统一为同一套Token流, 这是2026年"世界模型"的前置条件
- vLLM: PagedAttention(虚拟内存式KV管理), 吐提升 3-10x
- TensorRT-LLM: kernel fusion + KVcache优化
- DeepSpeed ZeRO-3/ZeRO-Infinity: 解决超大模型训练内存瓶颈
2025:
- System-2 Distillation: 系统2蒸馏, 将慢速思考的推理痕迹蒸馏进快速思考的小模型中, 这使得无需大量CoT的模型也能拥有极高的逻辑直觉
- Hybrid SSM-Transformer: 混合架构, 像Mamba-2/Jamba这样的架构走向成熟. 通过在Transformer层中穿插SSM层实现了推理时的O(1)显存复杂度.
- TTA: Test-Time Adaptation, 实时测试时适配, 模型在推理阶段根据当前输入的context动态调整自身参数或状态. 它比LoRA更实时, 比Prompting更深入, 让模型具备了"临场反应"的能力
- Self-Correction: 自我修正训练, 模型在训练阶段就学会识别自己的错误并回溯重写
- Scaling Test-time Compute: 思维链缩放, 自适应思维链(Adaptive CoT)和搜索树搜索(Tree-of-thought Search), 即使是较小的模型, 通过在推理时分配更多算力, 其逻辑表现能追平大模型
- MLA: Multi-head Latent Attention, 通过将KVCache压缩进低维潜在空间, 再在计算时动态解压, 解决了长文本推理的内存瓶颈, 使得在消费级GPU上跑超长上下文(128k+)成为可能
- DSA: DeepSeek Sparse Attention, 深求索稀疏注意力机制, 通过Token级别的稀疏注意力进一步优化训练和推理开销, 支持高达数百万Token的原生上下文
- Parallel & Tree-based Speculative Decoding: 平行与树状推测, 改变传统的单序列推测, 通过AMUSD/PEARL等框架实现并行验证或利用SwiftSpec/SpecBranch进行树状推测, 推理速度提升2x-4x
- ATLAS(Adaptive-Learning Speculator System): 自适应学习推测器,运行时动态优化draft模型, 实现实时适应工作负载,推理吞吐进一步提升
- QuantSpec: 自推测解码+分层量化KVCache
- 1.58-bit极简量化与BitNet架构: 模型参数从FP16/INT8极限压缩至三值逻辑(-1,0,1), 替代了浮点乘法计算, 相比INT8进一步提升约2.5x的推理吞吐量且能耗大幅下降
- MoE专家预取与异步调度, 将MoE的输出延迟(TPOT)降低10%-15%
- Continuous Batching: 动态拼接不同请求, GPU利用率接近100%
- Prefix Caching/Prompt Cache: 重用历史上下文KV, 长对话推理成本下降10x+
- Chunked Prefill: Prefill/Decode分离, 将长输入分块处理, 延迟降低 + 吞吐提升
- Ring Attention/Streaming Attention: 环形分布式注意力, 支持百万级上下文分布式训练
- Infini-Attention: 历史信息压缩成记忆状态, 上下文“理论无限”
- Medusa: 多头并行预测token, 速度提升2-3x(无需draft模型)
- Recurrent Drafting: 小模型递归预测草稿, 比传统speculative更稳定
- Data Efficiency Scaling: 高质量数据>大规模数据, 训练token下降5-10x
- Synthetic Data Engine: 自动数据生成, 减少人工标注
- Token Dropping/Routing Sparsity: MoE训练成本下降30%+
2026
Thought Compression: 思维压缩, 将漫长的中间思考过程压缩为紧凑的潜在特征向量, 既保留了推理能力又减少了Token消耗
World Model Integration: 世界模型集成, 模型不再仅仅是在预测文本而是内置了物理仿真引擎. 在生成关于物理世界/工程逻辑的描述时模型会先在内部的潜在模拟器中跑一遍预测确保逻辑不违背物理常识
Latent Reasoning: 不再生成CoT token, 推理成本下降一个数量级
Neural Execution Engine: 模型调用内部程序模块替代部分推理token
Fully Asynchronous Inference Pipeline: Prefill/Decode/Verification全异步, GPU无空闲周期
Memory-centric Inference: 推理瓶颈从算力转向带宽
Continual Pretraining: 持续预训练, 不再"训练->冻结", 模型持续更新
Parameter Routing: 参数级MoE, 不是token选专家,而是任务选参数子空间, LoRA的终极形态
TurboQuant: KVCache极致压缩, 结合PolarQuant+Quantized Johnson-Lindenstrauss实现海量上下文下内存开销大幅降低
Sparse FP8 Decoding+异构推测解码: 稀疏FP8解码带来1.8x推理加速, Dovetail等CPU/GPU异构推测进一步降低通信开销
DFlash: Diffusion-based Flash Speculative Decoding, 通过一个轻量级的扩散模型作为Drafter, 一次性生成一整块Token, 然后由主模型并行验证, 从而实现数倍的推理提速
DDTree: DFlash的进一步升华, 它利用扩散模型在推理时动态构建一个"候选解码树", 推理速度在保持逻辑严密的前提下再次提升3x以上
推理加速: KV Cache -> MQA/GQA -> MLA -> Speculative -> DFlash/DDTree -> Latent Reasoning
训练加速: LoRA -> QLoRA -> Synthetic Data -> Self-Correction -> Continual Training
架构: Transformer -> Hybrid SSM -> Sparse/MoE -> World Model
| 维度 | 早期 (2021-2023) | 中期 (2025) | 当前 (2026) |
|---|---|---|---|
| 适配方式 | LoRA / S-LoRA (静态微调) | TTA / Self-Correction (动态适配) | Thought Compression (内化逻辑) |
| 注意力机制 | Standard Attention | MLA / DSA (KV Cache 压缩) | Sparse-Latent Hybrid |
| 推理策略 | Autoregressive (逐字生成) | Speculative Decoding (推测) | DFlash / DDTree (扩散解码树) |