第 1 章 LLM 基础与适配
本章把"现代 LLM 为什么长这样、训练成什么样、又如何被适配到下游与 agent"梳理成一条可追溯的主线。下图给出 LLM 全生命周期:语料 → 预训练(基座)→ 后训练(对齐)→ 适配 → Agentic 应用。
1 LLM 基础
1.1 Transformer 与注意力
现代 LLM 几乎全部建立在 Transformer(Vaswani et al., 2017)之上:用自注意力(self-attention)完全替代循环与卷积,把长程依赖的路径长度压到 O(1) 并高度并行。要点:Scaled Dot-Product Attention(softmax(QKᵀ/√d_k)·V,除以 √d_k 防梯度饱和)、多头注意力(在不同表征子空间并行关注不同关系)、位置编码(原文正弦/余弦,现代多用 RoPE/ALiBi 以利长度外推)、以及"注意力 + 逐位置 FFN + 残差 + LayerNorm(现代多 Pre-LN)"的 block 结构。
架构分化为 encoder-only(BERT,理解)、encoder-decoder(T5,seq2seq)与当今主流 LLM 的 decoder-only(GPT,自回归)。工程瓶颈是注意力的 O(n²) 复杂度,常用 FlashAttention(IO 感知精确注意力)、GQA/MQA(缩小 KV cache)、滑动窗口注意力缓解。
1.2 预训练与 Scaling Law
主流目标是自回归(next-token prediction)的自监督学习,可吃下互联网级语料。GPT-3(Brown et al., 2020)证明仅靠扩大预训练,模型即可通过提示完成下游任务(in-context learning)。Scaling law 指性能随参数 N、数据 D、算力 C 呈幂律改善。转折点是 Chinchilla(Hoffmann et al., 2022):当时大模型严重训练不足,固定算力下"参数与训练 token 应近似等比例增长"——70B 的 Chinchilla 全面超过 280B 的 Gopher。
涌现能力及其争议
涌现能力(Wei et al., 2022)指小模型近乎为零、规模越过阈值后"突然"出现且不可外推的能力。反方代表作 Are Emergent Abilities a Mirage?(Schaeffer et al., 2023)论证:所谓涌现很大程度是非线性评测指标的产物,换用连续指标后同一批模型呈平滑、可预测的提升。折中看法:阈值化指标定义的"涌现"应谨慎,但某些下游能力确随规模快速改善;结论高度依赖"用什么指标度量"——这是评测方法论的重要警示。
1.3 后训练(对齐)
基座模型只会续写文本,后训练把它对齐到人类意图。第一步是监督微调(SFT / 指令微调)。InstructGPT(Ouyang et al., 2022)确立经典 RLHF 三阶段:SFT → 训练奖励模型(RM,对输出排序) → 用 PPO 优化策略并加 KL 惩罚约束。标志性结果:1.3B 的 InstructGPT 在人类偏好上胜过 175B GPT-3——对齐的价值可顶过 100 倍参数。
DPO(Rafailov et al., 2023)是重要简化:把 LLM 本身重参数化为隐式奖励模型,用类分类损失直接在偏好对(chosen vs rejected)上微调,省去显式 RM 与 RL 采样,稳定轻量。主要变体:
| 变体 | 一句话改进点 |
|---|---|
| IPO | 加正则,缓解对确定性偏好的过拟合 |
| KTO | 只需"好/坏"二元标签(无需成对排序),更贴近业务数据 |
| ORPO | 把 SFT 与偏好对齐合并为单阶段 |
| SimPO | 去参考模型、长度归一化奖励,进一步降显存 |
趋势:RLHF(PPO) → DPO → 各类无参考/单阶段变体,方向是"尽量不掉对齐质量的前提下持续降低工程复杂度"。前沿模型仍保留在线 RLHF,因其上限通常更高。
1.4 解码与上下文窗口
解码:Greedy/Beam 适合确定性任务;开放生成用 Temperature + Top-k/Top-p(nucleus) 采样兼顾多样性与连贯。Agent 场景(需可解析、可复现的工具调用)通常用低温甚至 temperature=0,并越来越依赖约束解码(强制合法 JSON/受限语法)。
上下文窗口从 GPT-3 的 2K 扩到主流 128K 乃至 1M+。但 Lost in the Middle(Liu et al., 2023)发现模型对中段信息利用率显著下降(U 形)——最相关证据应放 prompt 首尾。叠加 O(n²) 的延迟与费用,"把一切塞进超长 prompt"常不如"精准检索 + 短上下文"经济(见 2.3/2.4)。
2 适配为下游 / Agent 用
拿到通用 LLM 后,把它变得"在你的任务/数据/agent 流程里好用"主要有三条路径:提示工程、RAG、参数高效微调。三者并非互斥,生产系统常组合使用。
2.1 提示工程与上下文学习(ICL)
In-Context Learning(GPT-3 揭示)不更新参数,仅靠 prompt 中的指令/示例"现学现用":Zero-shot(只给指令)、Few-shot(给"输入→输出"示范,对格式敏感任务尤其有效;示例的选择/顺序/数量都显著影响结果)、Chain-of-Thought(提示"一步步思考",是 agent 推理的基础,详见第 2 章)。优点是零训练、迭代极快;局限是受窗口限制、稳定性不如微调、无法注入大规模私有知识、对措辞敏感。
2.2 参数高效微调(PEFT:LoRA / QLoRA)
全参数微调成本高昂(每任务存一份完整权重)。PEFT 只训练极小部分参数、冻结主干:
- LoRA(Hu et al., 2021):冻结预训练权重,在各层注入可训练的低秩矩阵 ΔW=BA。相比对 GPT-3 175B 全量微调,可训练参数约降 1 万倍、显存约降 3 倍,质量持平或更好;推理时可把 ΔW 合并回原权重,零额外延迟,多任务只切换小 adapter。
- QLoRA(Dettmers et al., 2023):在 LoRA 上叠加 4-bit 量化主干(NF4/双重量化/分页优化器),把门槛压到单张 48GB GPU 微调 65B 模型,质量基本不掉。
优点:成本远低于全量微调、行为比提示更稳定可控、可压缩推理 prompt(把指令内化进权重)。局限:需标注数据与工程投入;知识更新不及时(学到的知识冻结在微调那一刻),不擅长引入大规模、频繁变动的事实——后者是 RAG 的强项。
2.3 检索增强生成(RAG)
RAG(Lewis et al., 2020)把参数化记忆(权重里的知识)与非参数化记忆(可检索的外部库)结合,直接对症 LLM 的幻觉、知识过时、不可追溯。综述(Gao et al., 2023)归纳三代:Naive(检索→拼接→生成)、Advanced(检索前查询改写/路由 + 检索后重排/压缩)、Modular(组件化、可迭代检索/自反思,与 agent 融合)。核心组件:索引(切块→embedding→向量库)、检索(稠密/稀疏/混合)、重排(cross-encoder 精排,把最相关放首尾)、生成(带依据、可引用)。优点:知识可实时更新、答案可溯源、显著降幻觉;局限:系统更复杂、受检索质量上限制约、增加检索延迟。
2.4 何时选 提示 vs RAG vs 微调
常见决策顺序:先用提示打样 → 知识缺口用 RAG 补 → 行为/风格/格式缺口用微调固化。
| 维度 | 提示 / ICL | RAG | 微调 (SFT/PEFT) |
|---|---|---|---|
| 前期成本 | 极低 | 中(建检索管线) | 中–高(PEFT 显著降低) |
| 单次推理成本 | 低–中 | 中(检索+长上下文) | 低(知识内化,prompt 更短) |
| 知识时效性 | 受训练截止限制 | 最强:改库即更新 | 弱:需重训才更新 |
| 可控性/稳定性 | 较弱,对措辞敏感 | 中 | 最强:风格/格式最稳 |
| 抗幻觉/可溯源 | 弱 | 强:可引用来源 | 中 |
| 迭代速度 | 最快 | 较快 | 慢(需重训) |
| 典型场景 | 快速原型、通用任务、CoT | 企业知识库、需引用与实时数据 | 固定领域风格、严格格式、专有行为 |
关键论文(已核实链接)
- Attention Is All You Need (Vaswani et al., 2017) — Transformer 与自注意力的奠基。 arxiv 1706.03762
- Language Models are Few-Shot Learners / GPT-3 (Brown et al., 2020) — 扩大预训练解锁 in-context learning。 2005.14165
- Training Compute-Optimal LLMs / Chinchilla (Hoffmann et al., 2022) — 参数与数据应等比扩展。 2203.15556
- Emergent Abilities of LLMs (Wei et al., 2022)。 2206.07682 | 反方 Are Emergent Abilities a Mirage? (Schaeffer et al., 2023) 2304.15004
- InstructGPT / RLHF (Ouyang et al., 2022) — SFT+RM+PPO 三阶段;1.3B 胜 175B。 2203.02155
- Direct Preference Optimization / DPO (Rafailov et al., 2023)。 2305.18290
- Lost in the Middle (Liu et al., 2023) — 长上下文中段利用率骤降。 2307.03172
- LoRA (Hu et al., 2021) 2106.09685 | QLoRA (Dettmers et al., 2023) 2305.14314
- RAG for Knowledge-Intensive NLP (Lewis et al., 2020) 2005.11401 | RAG: A Survey (Gao et al., 2023) 2312.10997