第 1 章 LLM 基础与适配

Transformer 与注意力 · 预训练与 Scaling Law · 后训练(RLHF/DPO) · 提示/RAG/微调的取舍

本章把"现代 LLM 为什么长这样、训练成什么样、又如何被适配到下游与 agent"梳理成一条可追溯的主线。下图给出 LLM 全生命周期:语料 → 预训练(基座)→ 后训练(对齐)→ 适配 → Agentic 应用。

互联网级 语料 Base Model decoder-only · 自回归 Aligned / Instruct 会听话、可对话 Agentic 应用 规划 · 工具 · 多步 预训练 后训练 适配 SFT → 奖励模型 → RLHF(PPO) | DPO 直接偏好优化(捷径) 提示/ICL · RAG · PEFT(LoRA/QLoRA) 对齐 > 单纯放大:1.3B InstructGPT 在人类偏好上胜过 175B GPT-3
图 1.1 LLM 全生命周期:从语料到 Agentic 应用

1 LLM 基础

1.1 Transformer 与注意力

现代 LLM 几乎全部建立在 Transformer(Vaswani et al., 2017)之上:用自注意力(self-attention)完全替代循环与卷积,把长程依赖的路径长度压到 O(1) 并高度并行。要点:Scaled Dot-Product Attentionsoftmax(QKᵀ/√d_k)·V,除以 √d_k 防梯度饱和)、多头注意力(在不同表征子空间并行关注不同关系)、位置编码(原文正弦/余弦,现代多用 RoPE/ALiBi 以利长度外推)、以及"注意力 + 逐位置 FFN + 残差 + LayerNorm(现代多 Pre-LN)"的 block 结构。

架构分化为 encoder-only(BERT,理解)、encoder-decoder(T5,seq2seq)与当今主流 LLM 的 decoder-only(GPT,自回归)。工程瓶颈是注意力的 O(n²) 复杂度,常用 FlashAttention(IO 感知精确注意力)、GQA/MQA(缩小 KV cache)、滑动窗口注意力缓解。

1.2 预训练与 Scaling Law

主流目标是自回归(next-token prediction)的自监督学习,可吃下互联网级语料。GPT-3(Brown et al., 2020)证明仅靠扩大预训练,模型即可通过提示完成下游任务(in-context learning)。Scaling law 指性能随参数 N、数据 D、算力 C 呈幂律改善。转折点是 Chinchilla(Hoffmann et al., 2022):当时大模型严重训练不足,固定算力下"参数与训练 token 应近似等比例增长"——70B 的 Chinchilla 全面超过 280B 的 Gopher。

工程含义:Chinchilla 优化的是训练算力;若把推理成本计入(模型部署后被调用无数次),实践常倾向"更小但喂更多数据"的模型——这正是 LLaMA、Mistral 等可在消费级硬件运行的小模型路线的理论支撑(亦呼应第 5 章小模型 Agent)。

涌现能力及其争议

涌现能力(Wei et al., 2022)指小模型近乎为零、规模越过阈值后"突然"出现且不可外推的能力。反方代表作 Are Emergent Abilities a Mirage?(Schaeffer et al., 2023)论证:所谓涌现很大程度是非线性评测指标的产物,换用连续指标后同一批模型呈平滑、可预测的提升。折中看法:阈值化指标定义的"涌现"应谨慎,但某些下游能力确随规模快速改善;结论高度依赖"用什么指标度量"——这是评测方法论的重要警示。

1.3 后训练(对齐)

基座模型只会续写文本,后训练把它对齐到人类意图。第一步是监督微调(SFT / 指令微调)InstructGPT(Ouyang et al., 2022)确立经典 RLHF 三阶段:SFT → 训练奖励模型(RM,对输出排序) → 用 PPO 优化策略并加 KL 惩罚约束。标志性结果:1.3B 的 InstructGPT 在人类偏好上胜过 175B GPT-3——对齐的价值可顶过 100 倍参数。

DPO(Rafailov et al., 2023)是重要简化:把 LLM 本身重参数化为隐式奖励模型,用类分类损失直接在偏好对(chosen vs rejected)上微调,省去显式 RM 与 RL 采样,稳定轻量。主要变体:

变体一句话改进点
IPO加正则,缓解对确定性偏好的过拟合
KTO只需"好/坏"二元标签(无需成对排序),更贴近业务数据
ORPO把 SFT 与偏好对齐合并为单阶段
SimPO去参考模型、长度归一化奖励,进一步降显存

趋势:RLHF(PPO) → DPO → 各类无参考/单阶段变体,方向是"尽量不掉对齐质量的前提下持续降低工程复杂度"。前沿模型仍保留在线 RLHF,因其上限通常更高。

1.4 解码与上下文窗口

解码:Greedy/Beam 适合确定性任务;开放生成用 Temperature + Top-k/Top-p(nucleus) 采样兼顾多样性与连贯。Agent 场景(需可解析、可复现的工具调用)通常用低温甚至 temperature=0,并越来越依赖约束解码(强制合法 JSON/受限语法)。

上下文窗口从 GPT-3 的 2K 扩到主流 128K 乃至 1M+。但 Lost in the Middle(Liu et al., 2023)发现模型对中段信息利用率显著下降(U 形)——最相关证据应放 prompt 首尾。叠加 O(n²) 的延迟与费用,"把一切塞进超长 prompt"常不如"精准检索 + 短上下文"经济(见 2.3/2.4)。

2 适配为下游 / Agent 用

拿到通用 LLM 后,把它变得"在你的任务/数据/agent 流程里好用"主要有三条路径:提示工程、RAG、参数高效微调。三者并非互斥,生产系统常组合使用。

2.1 提示工程与上下文学习(ICL)

In-Context Learning(GPT-3 揭示)不更新参数,仅靠 prompt 中的指令/示例"现学现用":Zero-shot(只给指令)、Few-shot(给"输入→输出"示范,对格式敏感任务尤其有效;示例的选择/顺序/数量都显著影响结果)、Chain-of-Thought(提示"一步步思考",是 agent 推理的基础,详见第 2 章)。优点是零训练、迭代极快;局限是受窗口限制、稳定性不如微调、无法注入大规模私有知识、对措辞敏感。

2.2 参数高效微调(PEFT:LoRA / QLoRA)

全参数微调成本高昂(每任务存一份完整权重)。PEFT 只训练极小部分参数、冻结主干:

优点:成本远低于全量微调、行为比提示更稳定可控、可压缩推理 prompt(把指令内化进权重)。局限:需标注数据与工程投入;知识更新不及时(学到的知识冻结在微调那一刻),不擅长引入大规模、频繁变动的事实——后者是 RAG 的强项。

2.3 检索增强生成(RAG)

RAG(Lewis et al., 2020)把参数化记忆(权重里的知识)非参数化记忆(可检索的外部库)结合,直接对症 LLM 的幻觉、知识过时、不可追溯。综述(Gao et al., 2023)归纳三代:Naive(检索→拼接→生成)、Advanced(检索前查询改写/路由 + 检索后重排/压缩)、Modular(组件化、可迭代检索/自反思,与 agent 融合)。核心组件:索引(切块→embedding→向量库)、检索(稠密/稀疏/混合)、重排(cross-encoder 精排,把最相关放首尾)、生成(带依据、可引用)。优点:知识可实时更新、答案可溯源、显著降幻觉;局限:系统更复杂、受检索质量上限制约、增加检索延迟。

2.4 何时选 提示 vs RAG vs 微调

常见决策顺序:先用提示打样 → 知识缺口用 RAG 补 → 行为/风格/格式缺口用微调固化

维度提示 / ICLRAG微调 (SFT/PEFT)
前期成本极低中(建检索管线)中–高(PEFT 显著降低)
单次推理成本低–中中(检索+长上下文)低(知识内化,prompt 更短)
知识时效性受训练截止限制最强:改库即更新弱:需重训才更新
可控性/稳定性较弱,对措辞敏感最强:风格/格式最稳
抗幻觉/可溯源:可引用来源
迭代速度最快较快慢(需重训)
典型场景快速原型、通用任务、CoT企业知识库、需引用与实时数据固定领域风格、严格格式、专有行为
组合实践:生产级 agent 常见栈 = 指令微调的基座 + RAG 提供知识 + 精心设计的提示/工具调用协议。先用 LoRA 对齐到固定输出格式与领域语气,再用 RAG 注入实时知识,最后用提示编排多步推理与工具调用。

关键论文(已核实链接)

  1. Attention Is All You Need (Vaswani et al., 2017) — Transformer 与自注意力的奠基。 arxiv 1706.03762
  2. Language Models are Few-Shot Learners / GPT-3 (Brown et al., 2020) — 扩大预训练解锁 in-context learning。 2005.14165
  3. Training Compute-Optimal LLMs / Chinchilla (Hoffmann et al., 2022) — 参数与数据应等比扩展。 2203.15556
  4. Emergent Abilities of LLMs (Wei et al., 2022)。 2206.07682 | 反方 Are Emergent Abilities a Mirage? (Schaeffer et al., 2023) 2304.15004
  5. InstructGPT / RLHF (Ouyang et al., 2022) — SFT+RM+PPO 三阶段;1.3B 胜 175B。 2203.02155
  6. Direct Preference Optimization / DPO (Rafailov et al., 2023)。 2305.18290
  7. Lost in the Middle (Liu et al., 2023) — 长上下文中段利用率骤降。 2307.03172
  8. LoRA (Hu et al., 2021) 2106.09685 | QLoRA (Dettmers et al., 2023) 2305.14314
  9. RAG for Knowledge-Intensive NLP (Lewis et al., 2020) 2005.11401 | RAG: A Survey (Gao et al., 2023) 2312.10997
← 首页 / 总览 下一章:推理与工具 / MCP →